写真提供:マイナビニュース

写真拡大

Linkedinは、米国カリフォルニア州アトランタで開催されたTeradataユーザグループ主催の年次カンファレンス「TERADATA PARTNERS CONFERENCE 2016」にて、同社のデータ分析の課題について話した。同社では、ビジネス上の意思決定につなげられるように経営層にデータを提供している。

同社のデータ分析基盤は、KafkaやHadoop、データウエアハウス環境としてTeradataを利用している。Linkedinでは、非常に大きなアナリティクスチームを持っており、組織全体でさまざまなデータディスカバリに取り組んでいる。その中で、データカタログの必要性が高まっているという。データカタログとは、比較的新しい概念で、「データをカタログ化」し、検索を容易にするために、各データセットごとにタグやグループ化を行う手法だ。

さて、Linkedinによると、データ分析の分野では、近年のトレンドとして3つの課題を挙げることができるという。1つ目はデータの肥大化。Linkedinでは、約4億ユーザーが利用しているため、日々大規模データや複数の種類のデータが送られてくる。それらに適応するためにも、新しいデータ構造を週ごとテストしているという。

2つ目は、データディスカバリーだ。以前は、構造化した形のデータをマネージメント層に提供していたが、現在では、多くのデータを取り扱うため、データセットが構造化された状態で手に入れることは難しいという。 データアナリストの洞察レポートは、分析結果から出てくる結果だが、アドホックなデータを組織化した形で取り出すことが非常に難しい。そのため、自動的に整理されるデータカタログの利用が有益となっているという。

3つ目は、組織のコラボレーションである。組織をまたいだ作業や、非構造化データのようなデータウエアハウスの外側にあるデータで分析を行う場合、分析前にデータテーブルの整理や、データ内容の理解のために複数人にコンタクトを取らないとならないなど、データサイエンティストの作業量が増えてしまう問題があった。分析以外の作業が増えるため効率も悪く、仕事の満足度が下がる原因になっていた。

これらの課題解決のために、インベントリーをきちんと作ることが大切だという。その次に、データカタログを豊かにする必要がある。誰が使っているか、どのように使っているのか、データはそういった時に助かったかという観点から、中期的な評価を下す必要があったという。

また、データの再利用を効率的に行うことも重要となる。そこでも、データカタログが非常に重要となる。再利用するデータの準備が容易になるほか、効率性を上げられる利点がある。

人材育成にも注力すべきだと話す。新しいアナリストが仕事内容を理解するにも、データを学ぶのに半年も掛かっていた。そのため、新規採用のデータサイエンティスト教育や、適材適所な人事配置にすること、ツールのサポートを提供することを心掛けた。

これらを実行したら、データサイエンティストが分析作業に専念できるようになり、新規採用者もかなり早い段階で即戦力として働けるようになったという。また、製品のリリースサイクルが短縮になり、全体的な生産性向上が見込めるようになったと話す。

同社ビジネス オペレーション部門のRohit Jonnalagadda氏は、「データ増殖により、よりアドホックな分析が増えている。これは、人の生産性やシステムパフォーマンスにも影響している。せっかく、優秀な人材を高給で採用しても、分析以外の作業が多く、人件費のロスなっていた。それよりも、優秀な人材の知識を組織に展開する方に注力するべきだと考えている」と述べた。

(山本明日美)