画像提供:マイナビニュース

写真拡大

「Kaggle」というデータ分析に関するコンペティションプラットフォームをご存じだろうか。「Kaggle」では、企業や研究者が投稿した課題に対し、世界中のデータサイエンティストが最適モデルを競い合うコンペティションが開催されている。

コンペティションに勝つと、その順位に応じてメダルが付与され、さらにそのメダル数に応じて、称号が与えられる。Kaggleのコンペで1つのゴールドメダルと2つのシルバーメダルを取得した人は「master」が、Kaggleのコンペで5つのゴールドメダル(チームでも可)および1つのソロゴールドメダルを取得した人は「Grandmaster」が付与される。

この度、データサイエンティスト協会が開催したイベント「データサイエンティスト協会6thシンポジウム〜実務者が集うデータサイエンスの最前線〜」のセッション「「Kaggle Grandmasterに聞く!−トップデータサイエンティストの過去・現在・未来−」において、「Kaggle Grandmaster」を持つ2人の日本人の話を聞く機会を得た。データサイエンティストのトップである彼らはどのような人たちなのだろうか。

○DeNAとパナソニックのデータサイエンティストが登場

セッションに「Kaggle Grandmaster」を持つパネリストとして登場したのが、ディー・エヌ・エー(DeNA)の小野寺和樹氏とパナソニック ビジネスイノベーション本部 AIソリューションセンターの阪田隆司氏だ。

小野寺氏はディー・エヌ・エーのデータサイエンティストで、2015年よりKaggleに取り組み、ヤフーなどを経て2018年よりDeNAに在職。データに対する洞察力を活かした機械学習モデルは世界的に評価され、準優勝を4回経験している。

阪田氏は、パナソニックで工場やIoT製品のデータ分析・活用業務に従事するほか、機械学習に関する研究活動や社内のデータ分析に関わる人材育成にも携わっている。仕事で機械学習に出会ったことをきっかけにプライベートでKaggleに取り組み、複数のコンペティションで上位入賞を果たしている。

セッションは、日本経済新聞社のデータアナリスト・データサイエンティストである石原祥太郎氏がモデレータを務める形で進められた。同氏もKaggle master」の称号を持っている。

○Kaggleで上位入賞するために必要なモノは?

セッションはKaggleを始めたきっかけから話がスタートした。

阪田氏がデータサイエンスに関わるようになったのはパナソニックに入社してからであり、Kaggleのことは後輩から聞いたという。試しに参加してみたところ、それなりの成績が出たことから、Kaggleに継続的に取り組むようになったそうだ。

小野寺氏も会社の先輩にKaggleを聞いたことから、参加するようになったそうだ。同氏は「準優勝したことが弾みとなった」と語っていた。

Kaggleに参加するにあたっての目標については、「専門知識がなかったので、1つでも上の順位を取りたかった。負けず嫌いな人はKaggleに向いていると思う」と阪田氏は語った。

同様に、小野寺氏も「自分も負けず嫌い。学生時代は経済学を専攻しており、データサイエンスについて特別な勉強はしていなかった。だからこそ、学問優先型の人たちに一泡吹かせたかった」とジョークを交えて話していた。

さらに、阪田氏は「理論を知っているだけでは、1位はとれない。データ分析には、体系化されていないノウハウが必要。大学では数ある理論を学ぶが、どんな時にその理論を使うのかといったことまでは学ばない」と述べていた。

○金メダルやGrandmasterを取った時の感想や周囲の反応は?

続いて、石原氏からは「金メダル、Grandmasterを取った時」に関する質問がなされた。

小野寺氏は金賞を取ったことで、「最終的に、機械学習には数学が必要であること」と「自身が見出した手法でKaggleに勝てること」を実感したそうだ。そこで、数学を博士課程まで学んだ先輩と組むことで、お互いの得意分野を生かすという相乗効果を生み出したという。

Grandmasterを取った時の状況については、「国内よりも海外からの反応のほうが大きかった」と話しており、複数の海外の企業から転職の勧誘があったそうだ。

阪田氏は「Grandmasterを取った時、金メダルを取った時とは異なり、社内報のトップに取り上げられた」と語った。これをきっかけに、社内のさまざまな人から「機械学習で、こんな問題を解決できないか」といった質問を受けるようになったという。

○データ分析を業務にどう活用しているのか?

さて、小野寺氏と阪田氏は現在、データ分析を自身の業務にどのように活用しているのだろうか。

小野寺氏はDeNAでデータサイエンティストを務める傍ら、副業で他社のデータ分析に関わる事業をサポートしている。「機械学習で解く課題をどう設計するか」「KPIをどう設定するか」など、コンサルタントのような立場でアドバイスしているそうだ。

ご存じの方もいるだろうが、DeNAは「Kaggle社内ランク制度」という仕組みを導入している。これは、Kaggleの実績に応じて業務時間内におけるKaggleの参加の割合を定めるものだ。同社のWebサイトによると、Grandmasterの人は業務時間の半分をKaggleに割くことができるようだ。

この制度は、対象者が各自、柔軟に運用しており、1人20万円まで計算機の利用料金を会社が負担してくれるそうだ。

一方、阪田氏は工場でのデータ分析に従事している。「製造業では不良品が出るので、その原因を特定するという作業を行っている。ただし、必ずしも成功するわけではない」と同氏。

データ分析を行うことで、メンテナンスの時期の最適化、現場ではわからなかったセンサーの不具合の発見が可能になったそうだ。

阪田氏は事業部から「製品の品質を上げたい」「故障を減らしたい」といった相談を受けるそうだが、その際、「関係者との意思疎通が重要」と話す。これができていないと、やりたかったこととアウトプットに齟齬が生まれてしまうからだ。なお、「モデリングまで行くと、あとは順調」だという。

○将来、AutoMLは有効か?

データ・サイエンティストの「未来」ということで、石原氏から「AutoMLは今後、どうなるか」という質問が投げかけられた。AutoMLとは、Googleが開発した機械学習に関する専門知識が浅くても、高品質なカスタム機械学習モデルを簡単に構築できるサービスだ。

阪田氏は、「AutoMLを使えば、データ分析の一部を効率化かすることができる。しかし、データ分析においては、課題にKPIを設定して取り組むことが重要だが、これは人間にしかできないこと。AutoMLはデータ分析のすべてを置き換えることはないだろう」と語った。

小野寺氏も「副業のコンサルティングでは、KPIの設定と事業部との折衝に時間がかかっている。つまり、モデリングの前段に時間と手間がかかっている状況」と、データ分析において、人間による作業が不可欠であることを指摘した。

以上が、「Kaggle Grandmaster」の称号を持つ小野寺氏と阪田氏の講演内容となる。2人の話からわかったことは、Kaggleで優秀な成績を収めるには、大学でデータサイエンスを専攻している必要はないが、データ分析に関するノウハウを体得していることが不可欠であるということだろうか。あと、「人に負けたくない」という闘争心も欠かせない。

データ活用が進む今日、世界中でデータサイエンティストの需要が高まっている。データ分析の分野でキャリアを磨いていきたいと考えている人はKaggleで腕を試して、自身のレベルを確認してみてはいかがだろうか。