堅田洋資氏

写真拡大

 ビッグデータ、人工知能、IoTなど、最新テクノロジーを活用した新たなビジネスモデルが誕生している昨今、「データサイエンティスト」という職種が注目を集めている。

 データサイエンティストとは、高度なデータ分析技術を用いてさまざまなビジネスの問題を解決する専門職のことであり、米ハーバード・ビジネス・レビューは、データサイエンティストについて「21世紀でもっともセクシーな職業」と表現した。

 アメリカでは大学の教育プログラムにすら組み込まれているデータサイエンティストだが、日本での知名度は今ひとつといってよいだろう。経済産業省は「日本では2020年までに4.8万人が不足する」と発表しており、国内の人材育成が急務である。

 そんななか、データサイエンスを用いたビジネス課題解決を行う、株式会社データミックスは、未来のデータサイエンティストを育成するためのスクールを企画・運営している。

 同社代表は、自身も米国大学のデータサイエンス修士号を保有している堅田洋資(かただ・ようすけ)氏。前回の前編につづき後編では、アメリカでのデータサイエンティストの実態や、来年4期目を迎えるという「データサイエンティスト育成プログラム」、さらには膨大な情報を正しく読み解くテクニックについて話を聞いた。

――データサイエンティストは海外ではどんな存在?

堅田:かつてアメリカの大学ではMBAの学位が流行りました。それが今は、データサイエンティストの学位を出すところが増えています。

 とはいっても、まだ育成が追いついておらず、バランス的には需要のほうが多いと思われます。なかには一人のデータサイエンティストを雇うのには一千万円かかるという話もあります。

 ただ、ある程度、人材が増えたら、給料や求人も落ち着くのではないでしょうか。かつてHTMLでホームページが作れたらものすごく重宝されて、お金も稼げる時代がありましたから(笑)。

――日本ではデータサイエンティストを育成する流れは起きているのでしょうか。

堅田:アメリカで起きている出来事が数年遅れて日本でも発生する、とよく言われています。今年の4月からは、滋賀大学がデータサイエンス学部を設立し、横浜市立大学もデータサイエンス学部を’18年からはじめようとしています。徐々にではありますが、日本の教育機関でもそういう動きが生まれつつありますね。

――スクールでは、6か月でデータサイエンティストを育成するとありますが。

堅田:学習期間が6か月というのは、実はかなりギリギリでもあります。私が通っていたアメリカの大学院でも1年間、他の学校でも2年間は学位取得にかけていました。ただ、弊社のスクールの目指すところは完全な一人前ではなく、半人前だけど、企業で実務ができるレベルです。

――スクールで学ぶ人はどのような職種の人が多いのでしょうか。

堅田:現役のエンジニアは意外と少なくて、4分の1程度でしたね。あとは経営企画や経理、営業といったビジネス側の人たち。30代前半の人たちが一番多いですね。もちろん、それなりにプログラミングの素養があると助かりますが、素養がなくても、ガッツさえあれば6か月間で身につくように教えています。

――実際に授業の内容はどのようなものでしょうか?

堅田:統計学や数学はもちろん、データ分析でよく使われる「Python(パイソン)」などのプログラミング言語を教えたり、アルゴリズムを実装したりと、プログラミングの学校に似たところもあります。

 あとは、ビジネスでの実践を想定しているので、データ分析をどう活かすのか、実装したらいくら利益が出るのかなどを考えてもらいます。あるいはプレゼンテーションスキルや、予想コスト削減額を出して、社長にプレゼンするときのケーススタディもやってもらいます。

――かなり実践的な内容を教えているのですね?

堅田:ただデータを集めるのではなく、何をやりたいか、集めてきたデータをどう料理するかが授業の3分の1を占めています。残りの3分の1で、どういう食材を集めてくればいいかを教えています。

 データサイエンティストの授業は、料理の仕方を教えているのですが、どういう料理を作ったらよいかはなかなか教えてくれません。玉子(データ)があったら、それで目玉焼きを作るのか、スクランブルエッグを作るのかも本来は学ぶ必要があるのです。

 なぜなら結局、ビジネスの課題が何かわからないと、集めたデータをどう使えばよいのかわからないからです。私の通っていたアメリカの大学では、焼き方や茹で方を教えていて、「あとは実地で学びなさい」というのが多かったです(笑)。プログラミングだけだと、ビジネスシーンでの活用法がわからずなかなか現場で役に立たないのです。

――堅田さんがデータサイエンティストになるきっかけは? また、留学先のサンフランシスコ大学はどんな環境でしたか?

堅田:私はもともと大学時代に統計学を勉強していて、当時はまだアマゾンが流行りはじめたくらい。ビッグデータという言葉もありませんでした。

 ただ、今でいう人工知能の技術はありましたが、データはなかった。私は当時、経理やマーケティングをやっていました。その後、IoTやウェアラブルを用いてデータ収集ができるようになっていき、チャンスが来たと思いました。

 実はアメリカの大学に留学するとき、最初はMBAを受けようと思っていたんです。けれど、願書を提出する直前になって、「よく考えたらMBAってもう日本にもたくさんいるよなぁ」って思い直して。それで、もともと学んでいた統計学の知識を活かせる何か新しい学位はないか探し、データ分析のコースを見つけたんです。

 留学を決めた’13年当時、実践的な内容でデータサイエンティストの学位を発行している大学がアメリカで15校程度しかなく、西海岸ではサンフランシスコ大学でした。東海岸だと渡航費が高かったのと、やっぱりシリコンバレーに行きたかったので、そこに決めました(笑)。

 授業では、ビジネスストラテジーというビジネス戦略論と、プレゼンテーションのコースとか、インタビュースキル。あるいは、プログラミングと数学だけでなく、実践のなかでどうするかを学んでいました。

――もし一般人が、データサイエンティストのように情報を正しく読み解くにはどうすればいいのでしょうか?

堅田:もっとも気をつけたほうがいいのは「平均」という言葉の使い方です。たとえば「平均年収600万円の会社」があったとしますが、もしかしたらここは一部の人が年収2000万円をもらっていて、ほとんどの社員は年収200万円以下という場合もあります。

 平均という言葉を聞いて、我々はつい「真ん中」という意味を思い浮かべますが、必ずしも平均は真ん中ではない可能性があり、「中央値」というのが正しく真ん中を指し示す場合もあるんです。なので、何もデータのばらつきを考慮せずに、いきなり平均を出しているものを見たら疑ったほうがいいです。

――なるほど。ほかに何かアドバイスはありますか?

堅田:あとは、データサイエンティストは、記事とか文書などのテキストデータも分析対象なんですよね。このことを自然言語処理(NLP)と呼ぶんですが、わかりやすいのが「特徴語」を抽出しようとすること。

 その記事のなかで、特徴的に使われている単語を抽出することで、他の記事と何が違うのかを浮かび上がらせます。つまり、読むときに他の記事と比べたときに、その記事で独特に使われている単語を意識しながら読むと、時間をかけずに記事の骨子がつかめます。

――ちょっとしたことに気をつけておくことが大事ですね。

堅田:特徴語をどのように抽出するかというと、たとえば、『SPA!』の1年分の記事を分析するとしたら、まず記事ごとに単語をバラバラにします。で、そのときに大切なのが、調べる単語で、ほかの記事にもよく出てくる単語は重みを下げて、他の記事には出てこない単語の重みを上げること。

 そうやって単語の重要度を調整して、その記事ならではの単語を浮かび上がらせると、「あ、この記事にはこういう内容が書いてありそうだな」というのが自動的にわかるようになります。

 それでタグ候補を自動生成できるようにしたり、閲覧履歴からその人がどういう記事が好みかを分析して、おすすめ記事を出したり、あるいはタイトルにどういう単語が入っていると、クリック数が高くなるのかを解読できるようになります。

 以前、私がある動画を扱う企業のレコメンデーションのお手伝いをしていたのですが、ウェブ上の記事ページにおすすめ動画を出したとします。そのとき、紹介する記事のなかに、どういうワードが入っているとクリック数が高くなるのかを調べていましたね。

 何千、何万人が見ているメディアだと、クリック数が0.1%上がっただけで、購入ページに行く人が数百人か、数千人増えるわけですよね。もし仮に、購入率が同じでもクリック率が上がれば、ものすごい利益になるわけで、レコメンデーションの分野って比較的お金に近いんですよね。

<取材・文/井野祐真>