失敗は、ビッグデータから学ぶためのキーだ
そして、クラウドは失敗から学ぶためのキーである。
ソフトウェア開発に古典的で順次的な(そして遅い)「ウォーターフォール」アプローチは使用されなくなってきたが、ビッグデータ解析においては同様のアプローチが使用されているようだ。非常に多くの組織では、行動予測のために強力なモデルを考案しているが、それ自体が目的になってきており、データから学習することがおざなりになっている。
確かに、ビッグデータの焦点といえば、より多くデータを蓄積することである。それを使って、どの消費者が何をどれくらいの頻度で購入するのか、といったことを予測する能力を向上させるのだ。そして我々は、多くの失敗から学ぶよりむしろ予測モデルを完成することに過度に注力している。
残念ながら、クラウド以外のデータ・インフラストラクチャは、あまりに失敗を許容しないので、ビッグデータにとってクラウドが非常に重要となっているのだ。
予測のプロセス
MITスローン・スクール・センターのデジタルビジネス研究員、マイケル・シュラージは、こう強調している。
予測分析の最も揺るぎない効果とは…予測技術の定量的質の向上によるものではない。むしろ組織が問題や機会にどう取り組むのか、その変化によるものが大きい。
言い換えれば、ビジネス上の問題に予測分析技術の向上で対処するのではなく、問題への取り組み方を柔軟に変えることで、現状の技術で対処可能な場合があるということだ。
しかし、そうするためには、失敗する覚悟も必要だ。繰り返し。また繰り返し。シュラージは次のように語っている:
皮肉なことだが、予測分析の最大の価値は、予測される成功より予期しない失敗からもたらされることが多い。つまり、本当の影響や洞察は、予測が失敗した経緯と理由を正確に理解することによってもたらされると言える。何故だろうか?仮定、データ、モデルおよび/または分析が間違っていたことが、実際に測定可能であることを意味するからなのだ。
それゆえ失敗は、ビッグデータから学ぶための鍵と言える。Cloudera(Hadoopベンダー)は、「より大きな問題に取り組む」と謳っている。しかし、問題を正確に把握して試行錯誤を繰り返すことが、問題解決の鍵となるのである。
クラウドにおける失敗の画一化
クラウド環境は、「ビッグデータはビッグモデルで」といった会社の固定概念を覆しはしないが、試行錯誤する状況を作り出すことはできる。ビッグデータこそが、「より大きな問題に取り組む」ことそのものなのだ。そしてもちろん、その分野の知識が重要になる。
Gartnerのアナリスト、スベトラーナ・シキュラーの「Hadoopを学ぶことは、会社のビジネスを学ぶよりも簡単」との主張に戻ってしまうのはこのためである。それは、データサイエンスの妖精の国に行く必要などなく、ビッグデータの知識は社内でも獲得可能であるということだ。
たとえそうであっても、データサイエンスチームがどんなに賢明であっても、最初に取り組む問題は、ほぼ確実に間違っている。実際あなたは、おそらく正しいデータを収集できず、本当の問題に取り組むことはできないだろう。何度も何度もこういうことが起きるのだ。
このように、成果を出すには継続的にアプローチを微調整できる、柔軟でオープンなデータ・インフラストラクチャを使用することが重要である。
アマゾン ウェブ サービスのデータ・サイエンスのゼネラルマネージャーであるマット・ウッド(@mza)との会話で、ハードウェアとソフトウェアのインフラが障害になる場合、データに正しくアプローチするのがどれだけ大変であるかを説明している。
高価なインフラストラクチャを購入する人々は、問題の範囲や専門領域が実に速く変わることに気付くのだ。彼らがある問題の答えを得る頃には、ビジネスはもう先に進んでしまっている。柔軟性があり、ビッグデータ要件の変化に素早く対応できる環境が必要なのだ。ハードウェアもソフトウェアも絶えず進化を続け、インフラは購入後すぐに時代遅れとなり、ビジネスに対してほぼ無意味な存在となってしまう。つまり問題の解決には、インフラ自体を持たないか、それにとらわれ過ぎないという方法しかない。
クラウドとは、言い換えれば、失敗を恐れずに繰り返すことができる文化を作り出すことに他ならない。
あなたのビッグデータのすべてはクラウドに帰属している
これはクラウドが失敗を未然に防ぐことを示唆しているではない。全くその逆である。ウッドが言うように、すべては失敗のコストを容認可能なレベルすることなのだ。「あなたは大抵失敗するので、実験のコストを下げることが重要だ」。
ビッグデータプロジェクトが、クラウドでのみ成功するとも一概には言えない。大手のHadoopベンダー、Hortonworksの戦略担当副社長ショーン・コノリーは、私にこう語った:
ビッグデータはクラウドでのみで処理や活用されるのではなく、データセンターでも同様に活用されるのだ。しかし、Hadoopの市場は成長し続けており、クラウド上のHadoopが、より多様なアーキテクチャにおいて重要な役割を果たしていると確信している。
要するに、ビッグデータはクラウドにある必要はなく、多くのワークロードに関しては、データセンターで、保管・処理・分析することも可能なのだ。しかし実験の文化を構築し、ビッグデータ本質を発揮するには、クラウドは非常に重要である。
トップ画像提供:Shutterstock
Matt Asay
[原文]