写真提供:マイナビニュース

写真拡大

○データマネジメント民主化のための3つのポイント

IoT/ビッグデータ時代を迎え利便性の高いさまざまなアナリティクスツールが浸透するようになりました。多くの企業がBIやDWHを導入し、分析対象をビッグデータに拡げるため、データレイクを構築するケースも増えています。

こうした流れの中で、データの分析・活用するユーザーの裾野を拡げる、いわゆるアナリティクスの民主化が進み、分析業務のアジリティが高まっています。

しかし、その一方で、散在する膨大なデータ資産から目的のデータを探し出し、その素性を理解し加工準備をするという、分析活用の前段階における作業負荷は高く、分析業務全体の8割をデータの準備が占めているとも言われています。また、こうした準備作業は業務部門の依頼を受けて、IT部門が担っている場合が大半です。分析ニーズが多い組織ではIT部門によるデータ準備作業がボトルネックになってしまい、業務側のスピードに追いつけないことも少なくありません。

真のアナリティクス民主化を実現するためには、データユーザー主導で自らデータを準備する、いわばデータマネジメントの民主化が不可欠なのです。

では、分析に至るまでのデータ準備の流れに沿って、その課題と最新テクノロジーによる解決法を見ていきましょう。みなさんの会社では、これらをユーザー自身がセルフサービスで実行できる環境が整っているでしょうか?

1. Discover & Understand: 検索と把握

まずは、分析の素材となるデータを探すところから始めます。探す場所は、DWHやデータレイクなどの分析用に蓄積されたデータストアはもちろん、業務アプリケーションやデータベースなどのデータソース、そして最終的にデータを消費するBIといった、分析に関わるさまざまなシステムが対象となります。これら複数のシステムを横断的に、データを検索することはできるでしょうか?

そして素材となり得るデータセットを見つけたら、今度はそのデータの素性を把握します。データの品質や傾向は分析に足るものかどうか、どこから来てどこで使われているのか、機密データを含んでいるのか、ほかのどのデータと関係性があるのかなど、データの活用に際して把握すべき情報は多岐にわたります。

データカタログソリューションでは、データ資産にまつわる定義情報、いわゆるメタデータを収集し、一元的に管理することで、ユーザーに開放することができます。これにより、ユーザー自らIT部門に頼ることなく求めるデータを探し出し、人に聞かなくてもデータについての理解を深めることができます。

2. Prepare & Enrich: 準備と補完

データを発見し、その素性が理解できたら次のステップは加工準備です。ソースの状態そのままで分析できるデータはほとんどありません。ほかのデータセットと結合したり、表記の揺れを標準化したり、不完全なデータの補完やノイズ排除といったクレンジングをしたり、従来は個々のユーザーがExcelなどのツールで行っていた作業です。しかし、これには2つの問題があります。1つはデータの加工が個々人の能力に依存してしまうことです。

データ加工準備に特化したデータプレパレーションツールは、機械学習機能によって、ユーザーの加工作業をサポートしてくれます。例えば、データの傾向を自動的に判断して、おすすめのクレンジング方法や、複数データセットの結合キーを提示してくれるのです。

3. Publish & Share: 公開と共有

2つ目の問題はデータの加工過程が属人化・ブラックボックス化してしまうことです。ExcelのマクロやBIツールでの作り込みでは、せっかく工数をかけて生み出したデータ資産がサイロ化してしまい、再利用の妨げになります。

組織や分析テーマごとにプロジェクトを管理でき、プロジェクトチーム内やプロジェクト間でユーザーが加工して生成したデータ資産やその加工レシピを公開・共有できることが重要です。個人のPCではなくサーバで保持し、適切な権限管理の下で資産共有することにより、ロジックの透明化を図った資産の再利用を促進することが可能となります。

このような課題は、それぞれ適切なツールを活用することで解決することができます。例えば、インフォマティカではデータ分析・活用に至るまでの一連の流れを包括的にサポートするため、最新のデータレイクソリューションを提供しています。データを整備するデータスチュワード、そしてデータを分析するデータアナリスト・サイエンティストといったユーザーによる自律したセルフサービス型のデータ活用促進を目的にデザインされています。

ぜひ、このようなプラットフォームを活用しながら、データマネジメントの民主化、ひいては真のアナリティクスの民主化を目指してみてはいかがでしょうか。

○著者プロフィール

久國 淳
2013年4月1日より、インフォマティカ・ジャパン セールスコンサルティング部 ソリューションアーキテクト エバンジェリストを務める。データプラットフォームに関するソリューション提案活動のほか、データマネジメントを中心とした講演やセミナーを通して啓蒙活動に従事。現職以前は、SAPジャパンにて総合商社、小売、サービス業向けのERP営業や、BI/EPM製品やSAP HANAのソリューションスペシャリストを経験。

(久國 淳)