モノのインターネットは巨大になるだろう、そしてHadoopも
Hadoopがライバルを駆逐することはない。試みてはいるが。
ビッグデータは、いかにデータを保存、処理、分析するかという課題に取り組んでいる。しかしそれは、リレーショナル・データベースや既存技術がすぐに時代遅れになるこということではない。
これは、Cloudera共同創設者のマイク・オルソンの見解だ。彼はIoT(モノのインターネット)とHadoop(分散処理フレームワーク)のような新しいデータ技術間の相互作用について、ボッシュのディルク・スラマと対談した。スラマは、IoTブームに関する本をや白書を書き、演説も頻繁に行っている。したがって、彼はオルソンに思慮深い質問をし、非常に洞察力に富んだ回答を引き出すのに最適な人物と言えるだろう。
幸運にも、わたしは2人の会話を聞くことができた。ここでは、その一部を紹介する。
既に巨大だが、より巨大になる
「ビッグデータ」という名称は、誤った使い方をされることが多い。多くの企業は、山のようなデータ量よりも、万華鏡のように入り組んだ細かいデータの扱いに苦戦するからだ。データ量は実際に増加している。IBMの調査によると、世界のデータの90%は、過去2年間で作られたということだ。
オルソンもこれに同意する:
我々は、IoTのデータ・フローの最初期段階を見ているにすぎないのだが、既にそのデータ・フローは驚くべき量だ。スマートグリッドを流れる情報量を得るには、1カ月に1回ではなく、1分に10回の計測が必要になる。これは、現在メーター1台で1カ月あたりに行う計測の15万倍ということになる。データ量が加速度的に増えていくのは確実だ。我々は、より細かく、より多くのデータを収集しようとしている。将来的には、より多くのデバイスでも行うつもりだ。
オルソンが最後に示唆したように、データ増はコンピュータに原因がある。「コンピュータ生成データの出現で、我々はデータをキャプチャ、格納、処理する方法の再考を余儀なくされており、非常に大規模な高度並列コンピュータファームの構築がすでに一般的になっている」と彼は主張する。
その「再考」は、新世代の開発者によって進められている。現在、30万人の開発者がIoTに関与しているが、VisionMobileによる最近のレポートでは、2020年までには、450万の開発者が関与するとの推計値が出されている。57%の年平均成長率と巨大な市場機会を反映した数字だ。
関連記事:モノのインターネットには2020年までに何百万人もの開発者が必要となる
リレーショナル・データベースの役割
開発者達は、データのキャプチャや処理に既存のリレーショナル・データベースを今後も使用するのだろうか。「イエス」でも「ノー」でもある。
オルソンは、リレーショナル・データベース使用の妥当性を指摘している。
もし世界のデータ量が現在の1000倍以上あるとしよう。実際あり得る話だ。リレーショナル・データベースが、データを収集し、それを利用したビジネス・アプリケーションを提供することにより、市場で重要な役割を果たし続けることは理にかなっている。
しかし、彼はHadoopのような新しいデータインフラにはより大きな機会が待ち受けているとも語っている:
新世代データベース技術の台頭により、既存のOLTPまたはOLAPの活躍の場が掃討されることはないだろう。新技術は、これまで得られなかったデータフローを分析する役割を担う。そして情報が足りなかったために、以前では不可能だった、新たな発見や解明に役立てられるのだ。よって既存データベースの未来が暗いとは思わない。ビッグデータが秘める新市場や新たな機会によって、次世代技術に活躍の場が与えられるのである。そしてそれを牽引するのがIoTだと考えている。
企業がビッグデータ・プロジェクトの一環として使用するデータの多くは、本質的にトランザクション・データである。したがって既存データベースにも活躍の余地は残っている。しかし、それは新たな分析が必要な新しいタイプのデータによって変化していく。
万能策はない
私たちは将来多くの選択肢を持つことになるだろう。企業データ・ウェアハウスにはHadoopも、NoSQLやその派生技術も使用されるようになるはずだ。
なにわともあれ、ビッグデータは巨大なのだ。定義通り、一つの技術では完全には処理できないほどに巨大で多様なものだ。
それでも、オルソンや新データ・テクノロジー開発者は、Hadoopのデータ処理量と分析の柔軟性によって「以前は不可能ことが可能になる」と主張している。ビッグデータが多くの機会を産み出すということだ。そういった機会に期待して、Clouderaやスタートアップには数十億ドル規模の評価が与えられ、ボッシュなどは惜しみない投資を行っているのだ。
トップ画像提供(Cubieboard Hadoop cluster):Wikimedia Commons
Matt Asay
[原文]