次の段階へ移りつつある、企業におけるHadoop
データ統合分野に限定されていたHadoopは本来の目的である高度な解析分野へと急速に発展を遂げている。
Hadoopの残念な事実とは多くのタスク動作がとても鈍いということだ。言うまでもなくデータに関するHadoopの最大の使用目的は、我々を興奮させる魅力的なビッグデータ・サイエンスというより、むしろ「スキルのない人のためのETL」、極端な簡素化のリスクを伴ったデータ統合なのだ。
しかしそれが変わりつつある。Sand Hill Groupの新たな調査結果が示すように、多くの企業がこれまでのつまらないHadoopの使用目的を高度な解析へと変貌させている。
Hadoopの基礎
それほど驚くべきことではないだろうが、Hadoopは未だにほとんどの企業にとっては目新しいものだ。Sand Hill Groupの調査結果は、Hadoop採用に至らない理由を回答者の47%がHadoopのスキル不足、21%が人材不足と答えたことを示している。Hadoopをタウンロードする時のようなわずかな時間では、初心者を専門家にするのは不可能なのだ。
この問題に加えて、Hadoopはそもそも近寄りがたいシステムである。企業はこの複雑さを何とかしたいと考えている。Hadoopは一般的なサーバーで稼動するとても強力なオープンソース・ソフトウェアであり、ビッグデータ解析コストを劇的に下げるからだ。Hadoopは使いやすくなってきてはいるものの、使いこなすには多くの時間と経験を必要とする。
451 Researchのアナリストであるマット・アスレットが指摘しているように、今日我々は企業が「(データの)管理が行き届いていないごみ溜り」状態から、より複雑かつ重要な作業への移行を始めたことを目の当たりにしている。
企業とは、既知のテクノロジーについてもその手応えを感じるまで、常時稼動するアプリケーションとしてはそれを使わないものだ。かつてLinuxがデータセンターでの使用を疎まれ、ファイル・プリントサーバーの末端や取るに足らない作業に使用されていたことがそれを証明している。今では常時稼動しているデータセンターのアプリケーションでLinuxを使わないほうが疎まれるようになっている。
Hadoopのトレーニング段階の終焉
Linuxと同様のことがHadoopにも起こっている。大多数の企業は5から9ノードという非常に小さなクラスターを使いHadoopの品質を検証している。しかしこの段階が終わり次第、本当の作業に取り掛かることだろう。
Sand Hill Groupの調査結果が示すように、他のシステムの作業が減少もしくは大雑把に進化し続ける一方、Hadoopは高度な作業においてブームになると予測されている。
とはいえ、Hadoopはややログ・データ分野(回答者の61%がHadoopをデータ保存に利用)に囚われているようだ。
CRMやERPシステムにおける運用データでの使用が53%でその後に続く。ほとんどの企業がストリーミングやリアルタイム・データにおいてHeadoopを使用していない。
おそらくこの数値は企業がリアルタイム・データを高度解析プロジェクトに使用し始めれば変わるだろう。(それどころか企業はCriteoなどが行っている、Hadoopの高度解析能力をNoSQLと組み合わせたリアルタイム・データの取得と処理という作業さえ行うようになるだろう)
企業はHadoopに大きく賭ける
我々は企業のHadoop採用の顕著な増加を目にしているが、リポートは下記のように指摘している。
現在は8.9%にある発展途上の高度解析に関して、このほぼ3倍増という数字は組織変革を導く可能性のある大きな変化の象徴である。これはスキルや経験の向上への積極的な期待と、ビジネスにおける決定や結果を向上させるデータの早急な掘り起こしの必要性の双方をもたらす。
もちろん問題はあるだろう。しかしHadoopの伝道者フロイド・ストリムリングは「Hadoopはストレージと計算コストの費用曲線を変化させ、誰もがデータ解析をできるようになる。そして誰も後戻りはしないだろう。」と語っている。
画像提供:Shutterstock
Matt Asay
[原文]