ビッグデータツールHadoopが更にパワフルに、そして難しいものに
そしてこれが新たな機会を生み出す
昨今ではHadoopが厳密にどういったものか、もしくはどんなものではないのかをピンポイントで説明するのが難しくなってきている。
数年前、Hadoopは基本的にマップリデュース、つまりバッチ形式で大容量のデータを処理するシステムであり、この事で人々はHadoopとビッグデータ、そして「ただひたすらに多い」というだけの意味のビッグデータをごっちゃに捉えてしまった。かつての市場にあった混乱は、今日では更にひどくなっている。なぜならHadoopは2年前なら不可能だとされていたあらゆる機能を備えているからだ。
この事はHadoopプラットフォームにおいて喜ばしいことだが、ユーザーにとって使うのが難しい物にもなってきている。
Hadoop:安息までにはまだまだ遠い
Hadoopは2007年頃に現れたが、現在でもその普及は限られたものになっている。その利用については幅広い興味を集めているものの、ガートナーのアナリスト、スヴェトラーナ・サイキュラーは以下のようにコメントしている:
Within 2 years #Hadoop will play a significant role in most companies analytical infrastructre: 15% agree; in 4 years - 40% agree #GartnerBI
Svetlana Sicular (@Sve_Sic) Apr 3, 2014
Svetlana Sicular (@Sve_Sic):「向こう2年間でHadoopは企業の分析インフラにおいて重要な役割を果たすか:賛成 15%;では4年ではどうか:賛成 40%」
大きな注目を集めているにも関わらず、451 Researchによれば実際の普及はそれほどでもない。
PepperdataのCEOによれば、この乖離はHadoopの複雑性から来ているという。またベンダーが現在ある機能を過剰に喧伝することから、企業はHadoopやその他のビッグデータテクノロジーから価値を生み出せばいいのか混乱をきたしているのも原因の一部だという。
しかしHadoopの最も大きな利点・フレキシブルであるという事も、これの原因の一部になっているという。
「Thneed」としてのHadoop
絵本作家ドクター・スースの「Lorax」では、「みんなが必要とする素晴らしい何か」であるThneedsを作るための工場が作られる。Thneedsは大抵何にでもなれる。(シャツであろうが、靴下やグローブ、帽子であろうがだ。しかしこれには他の用途もある。もっというと、カーペットであろうが枕であろうがシーツやカーテンであろうが問題ない。自転車のサドルでもOKだ)
Hadoopはこんな感じのものだ。
2012年、Hadoopの製作者、ダグ・カッティングは「Hadoopは成長を続けるHadoopプラットフォーム上で動くツールを備えた、ビッグデータにとっての”OS”だ」と語ってくれた。
今日、彼はこのビジョンに更に自信をもっており、Hadoopは「ほとんどのものにおいて良いものだが、全ての場面で最高のものではない」と宣言している。
この事にはYARNの誕生も関わっている。YARNはHadoopほど影響があるわけではないが、第二世代のマップ・リデュースであり、Hadoopユーティリティーの拡張に大きく貢献するリソース/クラスターマネジメントツールである。
ガートナーのアナリスト、マーブ・エイドリアンは出てきた頃のHadoopを取り上げ、次のように説明する。
かつてHadoopはシンプルだった。HDFS、マップリデュース、そして幾つかのユーティリティーの集まりだった。やがてこれらのユーティリティーは形式化され、それ自体が商用ディストリビューターによってサポートされるプロジェクトとなった。それらの数は増加し、Pig、Hive、HBase、そしてZookeeperもHadoopの一部だ。更に数カ月前、Accumulo、Avro、Cascading、Flume、Mahout、Oozie、Spark、Sqoop、そしてYARNも加えられた。
YARNはここでは重要だ。コンポーネントの一覧が変わるという事以上に、これが加わることでHadoopの意味合いが変わるからだ。YARNがあることで、HadoopはアナリティクスやETLジョブのための高機能バッチインフラ以上のシステムになることが出来る。例えばインタラクティブな分析ツール、イベント処理、トランザクションシステム、様々な負荷がかかるセキュアかつ複雑なシステムといったものだ。
YARNはHadoopコミュニティにとって、その力を何倍にも高めうるものだ。
コミュニティの祝福と罵り
これにはいい面も悪い面もある。MapRのCEO、ジョン・シュローダーは「Hadoopに貢献しているもののうち、最も影響力を行使できたものでも15%から20%ほどだ」という。これではコミュニティを治めることは出来ないし、もちろん舵取りだって出来ない。
Hadoopは「船頭」が多いことから、多くの異なった形式や機能が存在しているのも不思議なことではない。エイドリアンが言うように、「皆がそうであるように、私も自分の目的に適合するよう、Hadoopの再定義を行っている」
これはHortonworksのCEO、ロブ・バーデンが「コミュニティーにおけるHadoop開発のゴールは、信頼性に優れ、痺れるほどのシンプルさを達成することだ」と主張しているにも関わらず、Hadoopが複雑なままで在り続ける大きな理由の1つだ。
目指しているゴールどころの話ではない。結局の所、全ての人が必要とする全てのものを備えた結果、非常に使いづらいものになっている。
Hadoopは使えるものになってきている
Hadoopがその定義および実装において複雑さを増す中、その理解は容易なものになってきている。
Hadoopを支える技術自体は、相も変わらず複雑なものだが、エイドリアンが断言するとおり、企業はそういった複雑な部分をユーザーから隠してしまおうという取り組みにでた。
@mjasay yes. But as more templates, upper layer offerings appear that changes. Just like RDBMS
Merv Adrian (@merv) Oct 13, 2014
Matt Asay(@mjasay):「Hadoopの定義の複雑さは、実装やその理解をずっと難しい物にしてしまうのではないかとおもうのですが」
Merv Adrian(@merv):「そうですね。でも更に多くのテンプレートや上層レイヤがでてきたら、それも変わるでしょう。RDBMSがそうであったように」
Clauderaの共同設立者、マイク・オルソンも2012年の時点でこの事をはっきりといっている。彼が主張するには、ほとんどの企業はCloudアプリケーションプロバイダを通じてHadoopの恩恵を被るという。言い換えれば、Hadoopのコミュニティ、そしてその技術の複雑さ自体は近いうちに改善される事は無いだろうということだ。
しかしこの事は問題にはならないだろう。FacebookやZoomdataのような企業の技術者たちがHadoopを使って消費者や企業に利用が容易なサービスを提供するであろうからだ。これがHadoopの将来を約束するものだ:コミュニティが抱えているのはClauderaやHortonworksといったHadoopのテクノロジを継続的に改善し続けているベンダのみならず、メインストリームの企業が使えるよう、複雑な部分を抽象化してしまうベンダも含むのだ。
トップ画像(Cubieboard Hadoop cluster)提供:Wikimedia Commons
Matt Asay
[原文]