2015年、ビッグデータは成長期へ

2015年1月13日 7時0分

モノのインターネットがその原動力に。

おそらく、エンタープライズ・コンピューティングにおける最大のトレンドは、多くの非常に小さなモノによって生み出されるだろう。膨大で多様かつ速度のあるデータを示す言葉、すなわちビッグデータのことだ。それはモノのインターネットで使用されるセンサーやモバイル機器といった、主に小さなデバイスの情報から形成されるものだ。

企業がビッグデータに何とか慣れようとしたのが2014年だったなら、2015年は、それで成功を目指す年になるだろう。皮肉なことに、HadoopやSparkが複雑すぎて、そうはならなくなるだろうが。それよりもむしろ、我々は2015年にあらゆるデータの問題をHadoopの問題とするのをやめて、その代わりに適切なツールを使用することになるだろう。

ビッグデータ問題に悩まされることはない

エンタープライズ・コンピューティングにおける大きな転換の一つに、Dockerとコンテナの台頭があるが、それはビッグデータの潜在的な影響に比べて見劣りする。 SnapLogicのダレン・カニンガムが強調しているように、あらゆるエンタープライズのトレンドは、最終的にはデータに行き着くのだ。

@mjasay data, data, data. Big, small, fast, slow, analytics, integration, discovery, prep, Data Nerds, Data Scientists. Data Eats World.
Darren Cunningham (@dcunni) Dec 23, 2014

Matt Asay （@mjasay)：「あなたがテック系企業でトップ3のトレンドを選ぶとしたら、それは何ですか？」

Darren Cunningham （@dcunni）：「データ、データ、データ。ビッグデータ、スモールデータ、高速のデータ、低速のデータ、分析、統合、発見、準備、データオタク、データ科学者。データが世界を飲み込むのです」

しかしながら、問題は、ビッグデータが実用段階にはなく、今現在は話の種となっていることだ。2013年にさかのぼると、ビッグデータを用いて大規模なことができることを誰もが認識していた。だが、実際どのようにそれを行うのかを理解している人はほとんどいないことを私は指摘した。

1年経ってもこの状況はあまり変わっていない。

ガートナーや他の人々が指摘したように、ほとんどの企業は今のところデータを使って何かを生み出してはいない。複雑さの問題だという企業もある。（ほとんどの）オープンソース・ツールは、高給取りのデータ科学者以外にとって、使いこなすのはあまりにも難しい。

また多くの人々は、ビッグデータを誤解している。例えば、BloombergのオープンソースR＆D部門責任者であるマット・ハントは、以下のようにそのことを的確に言い表している。

Bloombergにおいて、我々にはビッグデータの問題はありません。私たちが抱えているのは「ミディアムデータ」問題であり、これは誰にとっても当てはまります…「ミディアムデータ」は単一のマシンに収めるには大きすぎるけれども、巨大なマシンを何千台もは必要としないデータセットを指します。テラバイトではありますが、ペタバイトとまではいかない量です。

出典：NewVantage Partners

ペタバイト級のデータはニュースになる。しかしテラバイト級のデータは、ほとんどの企業が実際に管理するレベルにある。以前行われたIT企業幹部へのNewVantage Partnersの調査によってそのことが明らかとなっている。ビッグデータに伴う最大の課題は、データ量と一切関係がないと考えていたのはわずか28％だったのだ。多くの幹部はデータの多様性や速度を懸念しているのだ。

2015年もこの状況に変わりない。

Hadoopはこれらの「ミディアムデータ」アプリケーションには適切なツールとは言えない。しかしHadoopを利用してしまうために、多くの企業が苦労しているわけなのだ。我々は2014年にこれを学んだのだと思う。私は間違っていたのだ。

2015年、ビッグデータは多様なデータを細かく処理することへと向かう

モノのインターネットとモバイルの重要性を考えると、我々は大容量データツールを、盲目的に利用し続けることはないだろう。では Hadoopは、IoTデータ処理に重要な役割を果たすだろうか？もちろんだ。

Clouderaがの共同創設者、マイク・オルソンは、それをこのように表現している。

新世代データベース・テクノロジーが活躍することは、既存のOLTPまたはOLAP市場を混乱させることとは違う。それは我々が今まで手に入れられなかったデータ、新しいデータ・フローを分析する力を得ることであり、今まで知りえなかった物事を理解することなのです… 実質的には「モノのインターネット」によってビッグデータ市場や機会は活気づいている。そしてそのことが新たなテクノロジーに対して、巨大な市場機会を作り出しているのです。

関連記事：モノのインターネットは巨大になるだろう、そしてHadoopも

しかし、Hadoopは、大量のデータを処理するには理想的ではあるが、リアルタイム・データを分析するには不十分である。モノのインターネットに効果的に対処する場合、NoSQLのデータベースはリアルタイム・データ処理に適しておりHadoopを補完している。

モノのインターネットにおいて、データの性質が絶え間なく変化することを考えると（新型センサー、新らしいデータ型など）、NoSQLデータベースは、Machina Researchが推測しているように、必要不可欠である。

飛躍的に成長しつつある、多様なセンサー、デバイス、アプリケーションなどから生成されるデータやモノにおいて、そのデータの規模や構造も同様に多様化していくだろう。そして、企業システムから生成されたデータから、クラウドソーシングによって得られたデータに至るまで、あらゆるデータの生成元が、このデータと結びつけられる必要がある。

関連記事：モノのインターネットになぜNoSQLが必要なのか

ビッグデータ処理は、これまでHadoopとリレーショナル・データベース・システム、あるいはRDBMSがを組み合わせて行われてきた。これは私が述べてきたように、必ずしも理想的ではないが。 RDBMSが使用され続けているのは、ガートナーが言う、「DBMSにおける最も強力な力の一つは惰性である」という性質を示している。その一方で厳しい現実も待ち受けている。モノのインターネットやモバイルアプリケーションは、我々がデータについてどのように考えるか、また、データとの関わり方に変化をもたらすのだ。

2015年には、反応の鈍い企業データセンターから機敏なHadoopへの転換、そして柔軟性に欠けるRDBMSからより柔軟なNoSQLへの転換が起こるだろう。それと平行して、ビッグデータを利用する多くの製品やサービスが試験的に運用されるだろう。その原動力となるのがモノのインターネットだ。

トップ画像提供：Shutterstock

Matt Asay
[原文]