仮説なきデータマイニングが陥る「ファインマン・トラップ」という落とし穴

2019年4月9日 18時30分

1965年にノーベル賞を受賞した物理学者のリチャード・ファインマンは、ある日カリフォルニア工科大学の学生たちにこんな問題を出した。「いま教室を出て駐車場に行ったとき、最初に目にするクルマのナンバープレートが特定のもの、仮に『6ZNA74』である確率を求めよ」

数字とアルファベットの出現確率はすべて同等かつ独立して決まるという仮定のもと、学生たちは「確率は1,700万分の1以下である」と推定した。ところが、ファインマンは計算を終えた学生たちに、正しい確率は「1」であると明かした。ファインマンは授業に来るときに、そのナンバープレートを目にしていたのだ。

極めてまれなことも、すでに起きている場合はまれではないのである。

データマイニングのアキレス腱に

この「ファインマン・トラップ」、つまり、何を求めればよいのかという予備知識がゼロの状態からデータを漁ってパターンを探すことは、データマイニングに基づく研究の“アキレス腱”と言える。

異常なことや驚くようなことを、その事象が起きたあとに“発見”したとしても、実際それは異常でも驚くべきことでもない。パターンは必ず見つかるが、誤解を招いたり、不合理だったり、それよりひどい結果に終わったりすることが往々にしてあるのだ。いくつか例を見ていこう。

2001年のベストセラーになったジェームズ・コリンズの著書『ビジョナリー・カンパニー2：飛躍の法則』（邦訳：日経BP社）を例に考えてみよう。コリンズはこの本で、過去40年にわたってパフォーマンスが株式市場全体を上回った11社と、そうではない11社とを比較した。そして、成功した企業に共通する顕著な特徴を5つ見つけ出した。

「われわれは今回のプロジェクトを、検証・証明すべき仮説をもたずにはじめました」とコリンズは豪語している。「理論をまったく新しく、証拠から直接引き出して構築することを目指したのです」

コリンズは「ファインマン・トラップ」にひっかかった。ベスト企業やワースト企業、どのようなくくりであれ、時を経て振り返れば、共通する何かしらの特徴が必ずいくつか見つかる。それゆえ、それを発見したところで何の証明にもならない。

『ビジョナリー・カンパニー2』が出版されたあとで、コリンズが素晴らしいとした11社は、明らかに平凡なパフォーマンスになっている。株式市場全体を上回っているのが5社、下回っているのが6社だ。

「イングランド人は青緑色が好き」の落とし穴

別の例をみてみよう。2011年、グーグルは検索クエリ［編註：ユーザーが検索のために入力したキーワード］を使ってインフルエンザの爆発的感染を予測する人工知能プログラム「Google Flu Trends」を開発した。同社はこのプログラムを使って5,000万件の検索クエリを調査し、インフルエンザの発病率と極めて緊密な相関関係にある45のキーワードを見つけ出した。

しかし、これもまたデータマイニングの罠の一例だ。妥当な調査であれば、キーワードをあらかじめ特定していただろう。Google Flu Trendsはレポート発表後、108週のうち100週にわたって、インフルエンザ発症数を平均100パーセント近く過大に見積もった。Google Flu Trendsによるインフルエンザの予測は、もう行われていない。

次は、ウェブマーケティングを行うある企業の例だ。この企業は、これまで青だったウェブページを別の色に変えることで、売り上げを増やせるのではないかと考えた。そこで同社は色違いのウェブサイトをいくつか用意し、100カ国ほどを対象に色と売り上げの関係を調べた。数週間にわたるテストの結果、同社は「イングランド人は青緑色が好きなようだ」という統計的に有意な結果を得た。

ただし、得られたのは「一部の国ではウェブサイトを特定の色にしたら売り上げが伸びた」という保証だけだ。青緑色にすることで以後もイングランドで売り上げが増えるかどうかはわかっていなかった。

いざイングランドのウェブページの色を青緑に変更してみると、売り上げは減少したという。

死んだサケの脳活動にもパターンがある？

神経科学のスタンダードな実験のなかに、MRI内のヴォランティアにさまざまな画像を見せたり、その画像について質問したりして、脳活動の反応を見るものがある。しかしこの測定は、脳の部位の違いによる脂肪組織の密度のばらつきや、周辺環境から拾う磁気信号によるノイズが出やすい。脳の活動を見逃すこともあるし、脳の活動がないのにあるのではないかとされることもある。

ダートマス大学の研究を例に挙げよう。同大学の大学院生がMRIに魚のサケを入れ、写真を見せたり質問したりすることでサケの脳活動を研究した。

ただし、この研究のポイントは、これがサケの調査である点ではなく、「死んだサケ」の調査である点にある。そう、地元の市場で購入した死んだサケをMRIに入れて、いくつかのパターンを発見したのだ。パターンは必然的に存在したが、これもまた意味のないパターンだった。

18年、エール大学の経済学教授と大学院生は、ビットコイン価格の変動とほか多数の金融指標との相関を調査した。ビットコインの値段は、消費財およびヘルスケア業界の株利益と正の相関関係にあり、加工製品と金属鉱業業界の株利益と負の相関関係にあると、ふたりは発見した。

「説明はしません。この事象を記録するだけです」と、この教授は述べた。つまり、「ビットコインの値段」と「大量の電話番号のリスト」の相関を調べて、最も高い相関を報告したのと変わらない話なのだ。

「ピザ論文」の間違い

最後は、コーネル大学食品商標研究所所長のケースだ。200本を超える査読済み論文の著者（共著者）であり、25カ国語以上に翻訳された人気作2冊の著者でもあるこの教授は、16年に「決してノーと言わなかった大学院生（The Grad Student Who Never Said No）」というタイトルでブログを書いた。

彼は博士課程の学生に、食べ放題のイタリアンビュッフェで集めたデータを渡した。教授は学生とのメールのやり取りのなかで、食事する人を「男性、女性、ランチの常連、ディナーの常連、ひとりで来ている人、ふたりで食べる人、ふたりより多い人数のグループで食べる人、お酒を注文する人、ソフトドリンクを注文する人、ビュッフェに近い席につく人、ビュッフェから遠い席につく人など」に分けるよう助言した。

この学生はこうしたサブグループ間での違いを、「食べたピザの枚数、席を立った回数、皿の盛り方、デザートの有無、ドリンクの有無など」といった視点で調べた。

教授はメールを「頑張って不可能を可能にしよう」という言葉で締めた。決してノーと言わなかった大学院生は4本の論文を完成させ、この教授との共著として発表した（これらの論文は『ピザ論文（pizza papers）』として有名になった）。

いちばん有名な論文によると、男性は女性と一緒だと、食べるピザが93パーセント増えるという。めでたしめでたし、とはならなかった。コーネル大学の教授会は18年9月、この教授が「研究において学術上の不正を働いた」と結論を出した。教授は翌年6月付で辞職した。

ビッグデータの思い上がり

よい研究は、自分が何を求めているのか、どんなことを発見したいのかを明確に知ることから始まる。データマイニングはパターンを探すだけである。そして、なんらかのパターンが見つかるのは必然のことなのだ。

いま、この問題が蔓延している。ビッグデータを強引に使うのがとても上手な、強力なコンピューターがあるからだ。データマイニングによって、「ツイートの文言」や「グーグルの検索クエリ」と「犯罪」「心臓発作」「株価」「選挙結果」「ビットコインの価格」「サッカーの試合」などとの相関が見つかっている。これらの例はわたしのでっち上げだと考える人がいるかもしれないが、そうではない。完全に無作為な数値にすら強い相関関係がみられる場合だってあるくらいなのだ。

データマイニングで得られた相関には意味があるはずだ──と考えるのは、「ビッグデータの思い上がり」である。ビッグデータに珍しいパターンが見つかったとしても、その説得力（あるいは有用性）は、ファインマンの教室の外で珍しいナンバープレートが見つかる以上のものではない。

ゲアリー・スミス｜GARY SMITH
経済学者。カリフォルニア州にあるポモナ・カレッジのフレッチャー・ジョーンズ経済学教授。著書に『データは騙る──改竄・捏造・不正を見抜く統計学』（邦訳・早川書房）など。

みんなの感想は？