ビッグデータとは何なのかを解説すると同時にデータ分析の罠も紹介します(写真:chombosan / PIXTA)

グーグルやポルノサイトの膨大な検索データを分析し、隠された人種差別、性の悩みや嗜好など、さまざまな社会の実相を暴き出した、グーグルの元データサイエンティストである著者の邦訳『誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性』(訳:酒井泰介)を基に、ビッグデータとは何かを著者と祖母の事例を例に取り解説します。

ビッグデータおばあちゃん

ここ数年間の感謝祭をデート抜きで過ごしてきた33歳にとっては、伴侶選びは重要な話題だろう。そしてこの話題をめぐっては、誰もが一家言あるものだ。

「セスには本人並みにクレイジーな女の子が必要だわ」と私の姉は言う。

「そんなバカな! 必要なのはまともな娘だ。バランスをとらなくちゃ」と弟が反論する。

「セスはクレイジーじゃないわ」と母。

「そんなクレイジーな。もちろんセスはクレイジーだ」と父。

それまで黙って聞き役に回っていた物静かで穏やかな祖母が口を開いた。口さがないニューヨーク人どもがしんとなり、この黄色い短髪でいまだに東欧訛りの抜けない小柄な老婆に視線を注ぐ。「セス。あなたには良い娘が必要よ。あまりきれいすぎない娘ね。頭と人当たりがとても良い娘。社交的なら、あなたの邪魔にならないからね。ユーモアのセンスも大事よ。だってあなたにはユーモアがあるから」

どうしてこの老婆の助言は、家族から一目置かれるのか? 何しろ88歳とあって、誰よりも人生経験が豊かだ。うまくいった結婚生活も、いかなかった結婚生活も、山ほど見てきた。そんな歳月のうちに、良い相性を類型化してきた。感謝祭の食卓で最大のデータポイントにアクセスできたのは祖母だった。

祖母はビッグデータなのだ。

本書『誰もが嘘をついている』ではデータサイエンスにまつわる誤解を解く。好むと好まざるとにかかわらず、データは私たちの暮らしにますます重要な役割を果たしており、その傾向は募るばかりだ。新聞にも市況欄がある。企業にも社有データを分析する専門部門がある。投資家もデータを集められる新興企業には巨額の投資を惜しまない。回帰分析や信頼区間の計算を学んだことがなくても、活字、仕事の会議、廊下の雑談などで、データとさんざん向き合うだろう。

こんな趨勢に不安を覚える人も多い。データに怖気づき、まごつき、物事を定量的に理解するのは左脳が発達した少数の英才の特権で、自分など柄ではないと考える。数値を見るや否やページをめくり、会議を切り上げ、話題を変えようとする。

私はデータ分析に10年携わり、斯界の権威の謦咳(けいがい)に接する幸運に恵まれた。それを通じて学んだ最も重要な教訓は、良きデータサイエンスは思ったほど複雑ではない、というものだ。実際、良きデータサイエンスとは驚くほど直感的なものだ 。

なぜか? データサイエンスとは、煎じ詰めればパターンを見いだし、ある変数が他の変数にどう影響するかを予測することであり、人は絶えずこれをやっているからだ。

祖母の助言について考えてみよう。彼女は1世紀近くにわたって家族や友人や知り合いから聞き込んで脳に保存してきた膨大なデータにアクセスした。そして私に似た性格――感受性が強く、孤独癖があり、ユーモアのセンスがある――を持つ例を抽出した。そして女性にとって重要な資質――親切さ、賢さ、容姿――を絞り込んだ。

そしてそれを良き結婚生活に伴う資質と組み合わせたうえで、結論を出した。つまり彼女はパターンを抽出し、ある変数が他にどう影響するかを予言したのだ。おばあちゃんはデータサイエンティストだ。

あなただってデータサイエンティストだ。子どもの頃、泣けばお母さんがかまってくれると思っていたはずだ。これはデータサイエンスだ。大人になってからは、愚痴ばかりこぼしていると人から相手にされなくなると悟ったはずだ。それもデータサイエンスだ。

人に相手にされなくなると、面白くない。そしてそうなると、つっけんどんになる。つっけんどんになると、ますます人から相手にされなくなる。いずれもれっきとしたデータサイエンスだ。

データサイエンスはこんなにも自然なことだから、私は、最高のビッグデータ研究は少しばかり賢い人になら誰にでも理解できるものだと悟った。ある研究が理解できなければ、悪いのはおそらくあなたではなくその研究のほうだ。

「共通の友人」は夫婦円満の敵

慎重なコンピュータ分析を伴わない直感が大間違いにつながることもある。人は自らの経験や偏見に惑わされやすい。実際、私の祖母は積年の経験を生かして長続きする男女関係について家族の誰よりも良い助言ができるが、それでもなぜそうなるのかについては疑わしい見解を持っている。たとえば彼女は、共通の友人を持つことの重要性を説いてやまない。これが自分の結婚生活の成功のカギだったと信じているのだ。

彼女は夫(私の祖父)とニューヨーク市クイーンズの小さな裏庭のデッキチェアに腰かけて、決まった顔ぶれのご近所さんたちとうわさ話に興じて充実した日々を送った。

祖母には悪いが、データサイエンスは彼女の誤りを示唆している。最近、データサイエンティストのチームが、人類が集めた最大のデータセットであるフェイスブック上の人間関係を解析した。ある時点で「交際中」の関係にあった膨大な数のカップルを調べると、一部はその後も「交際中」を保っていたが、交際ステータスを「独身」に戻した人たちもいた。

そして研究の結論は、共通の友人を持つことは関係が長続きしないことの強力な予兆になることだった。おそらくパートナーや同じ少人数の人々と夜ごとつるむことは、あまり良いことではないのだろう。それぞれが別の社交集団を持つほうが関係を長続きさせるのだ。

ご承知のとおり、コンピュータなしに直感頼りでやってすばらしい結果が得られることもある。だがそれが大きな間違いを生むこともある。祖母はおそらく、人は自らの経験を買いかぶる傾向があるという認識の罠(わな)にはまったのだ。データサイエンスの用語ではデータに「加重(ウェート)する」と言うが、人は自分というデータポイントに過大な加重をするのだ。

人は印象的な物語を買いかぶる傾向がある

祖母は祖父やその友人たちとおしゃべりに興じた夕べを懐かしむあまり、いつも同じ少人数の友人たちとつるんでは口論が絶えず離婚に至った義兄夫婦を忘れてしまった。また自分の娘夫婦(私の両親)のことも失念していた。私の両親は別々に夜を過ごすことがよくあった。父は友人とジャズクラブや野球観戦によく出掛けたし、母は友人と連れ立って食事や映画に出掛けたが、今も仲睦まじい夫婦である。


直感頼りだと、劇的なことに引きつけられるという人間の基本的な特性にもだまされがちだ。人は印象的な物語を買いかぶる傾向がある。たとえば、調査ではつねに、喘息よりも竜巻が一般的な死因として上位に挙げられるが 、実際には喘息のほうが70倍も人を殺している。喘息による死は目立たないし、ニュースにならない。竜巻で人が死んだときはその逆だ。

要するに、自分の見聞に頼り切っていては、世の中のありようを見誤るのだ。良きデータサイエンスの方法は得てして直感的だが、結果は往々にして反直感的である。データサイエンスはパターンを見いだし理解するという人間の自然で直感的な方法を大幅に増強し、まったく意外な実相を見せてくれることがある。