現役研究者が教える｢データの効果的な分析手法｣

2023年3月10日 16時0分

科学的な思考が欠かせない研究者の視点で、「ものごとを説明する」方法を考えていきます（写真：Mills／PIXTA）

みなさんの会社には、「なんとなく」の判断がはびこっていないでしょうか？　たとえば、「新しいビジネスや新商品の成否を“なんとなく”の印象で判断してしまう」「効果が不明確な施策も、これまでもそうだったからと“なんとなく”続ける」「新しい挑戦は“なんとなく”リスクがありそうだからやめておく」などです。

ビジネスの世界において「データ」や「エビデンス」が重要であることは、もはや周知の事実となりました。しかし、科学的事実に基づいた思考を持とうとせず、「気合い」や「直感」に頼ろうとする人がいるのもまた事実です。現状を分析したり、見通しを立てたりすることを放棄した結果、損失を出してしまったり、好機を逃してしまったりしては、もったいないとしかいえません。

科学的な思考が欠かせないのが、「研究者」の世界です。「研究者の世界の思考法はビジネスにも役立つでしょう」と伝えるのは、『なぜ君は、科学的に考えられないんだ？』の著者、松尾佑一さんです。現役の研究者であり、受賞歴をもつ小説家でもある同氏が書き下ろした全編小説スタイルの同書から、「効果的なデータ分析」のコツを抜粋してお届けします。

【あらすじ】

化粧品開発会社3年目の山田咲良は、東京科学技術大学の班目教授と共同で開発された化粧品「ドクターズコスメ」のリニューアル担当に任命された。班目教授は「変人」と評されるが、事実にもとづいて分け隔てなく思考する班目教授に、咲良は信頼を寄せつつあった。そんな中、咲良を含む企画課の面々は、同商品に関するアンケート結果を報告しに班目教授の研究室を訪れた――。

サンプル情報から母集団の傾向を探る

プレゼンの準備が整い、私は話し始めた。

「本日のミーティングの趣旨を説明します。班目教授と開発しているドクターズコスメについて、これまで5年間に蓄積されたアンケート結果などをまとめ、今後の方針について議論したいと思います」

私は用意したグラフを見せた。

（『なぜ君は、科学的に考えられないんだ？』より）

「こちらは、ドクターズコスメと、比較のために弊社の他製品を使用してもらった、モニター100名の方の満足度の回答です。満足度は満点を100点としています。性別と年齢としてはF1層で、居住地や職業などに偏りはありません。結果としては、弊社の類似の他製品との満足度の差は10％もあり、優れていたことがわかりました」

「このグラフは、それぞれ100名のデータの平均値を表しているんだね」と、班目教授が訊いてきた。

「その通りです」

「たしかに両者で差があることが、このグラフからわかる。さて、我々研究者がこのようなグラフを見たときに気になるのが、母集団がどれぐらいバラついているか、だ」

「母集団……ですか？」

「例えば、この世界に存在するドクターズコスメの利用者は、このアンケートに協力してくれた100名だけかな？」

「そんなことはありません。利用者は何万人もいます」

「そう、その利用者全体のことを統計学の世界では母集団という。そしてアンケートに協力してくれた人の回答を標本という」

（例えばあるコスメの場合）
母集団：そのコスメの利用者全体のこと。利用者全体のアンケートは取れない
標本：そのコスメの利用者のなかで、アンケートに答えた一部の人のこと

「母集団のデータは取りようがない……だから標本のデータを集めてきて、標本の平均値を求めて比較する……ということを私たちはしているのです」

「そうだ。貴君たちが欲しいのは、母集団の情報か？　それとも標本の情報？」

私は三田村さんと片栗課長の顔を見た。2人とも不思議そうな顔をしていた。

「そりゃあ、母集団の情報が欲しいです。それぞれのコスメの利用者全体（母集団）のことを理解しようとして、アンケート（標本）を取っているのですから」

「そうだな、研究者たちも同じように考える。そこで標準偏差、正確には不偏標準偏差というものを用いて、母集団のデータのバラツキを推定するんだ」

そのグラフは意図的に作られていないか?

「母集団のバラツキが推定できる……それはどのようなものですか？」

「今回のコスメのアンケートの場合、100点満点で満足度を回答してもらっているんだよね。その点数が、このコスメを利用する全員のなかで、どれくらいバラついているかということが推測できるんだ」

「どれほどそのコスメに対する意見が分かれているか……ということですね」

片栗課長が横から言った。

「その通り。では、このグラフに、不偏標準偏差を付け足してみよう。貴君、生データ……このグラフを作るときに使用したデータはあるかな？」

私は慌ててノートパソコンの中のファイルを探した。私は先ほどのグラフをExcelソフトで作成していた。そのExcelのファイルを見つけて、ノートパソコンごと班目教授に渡した。彼は恐ろしいほどの速度でキーボードをたたき、計算をし始めた。やがて、次のようなグラフができた。

（『なぜ君は、科学的に考えられないんだ？』より）

「違いがわかるかな？　2つある」

「縦軸が変わりました。先生のグラフは縦軸がゼロから100までに変わりました」

「うん。まぁ、ゼロから100までが正しいわけではないが、あることに気が付いてほしくて、このようにしたのだ。貴君のグラフと見比べてほしい。貴君のグラフは、ドクターズコスメと他製品の顧客満足度が大きく異なるように見えるが、縦軸を変えただけで、その印象は変わって見えるだろう。貴君たちのグラフは、見る人に『（実は違いはそれほどないんだけれど）大きな違いがありますよ』と伝わるように作られていると言われる恐れがある」

そんなことは、考えていません、と私は言いたかった。でも、言えなかった。実のところ、私は「何も考えていなかった」のだ。Excelのシートにデータを入れて、自動でグラフが出来上がっただけだ。

私は縦軸を故意に変えてはいなかった。Excelが自動で、見やすいようにしてくれたんだろう。裏を返せば、Excelを使う他の多くのビジネスパーソンも、同じことをやってしまっているのかもしれない。

標準偏差を見れば全体の傾向がわかる

「さて、2つ目の違いは何だろう？　こちらのほうが重要だ」

「グラフに棒が付いています」

「そう。エラーバーだ。このバーは不偏標準偏差を表している。不偏標準偏差は、データの平均値に対して『主にこの範囲にデータが集中している』と示すもので、公式によって導ける。詳しく説明するとややこしいので割愛するが、多くの場合、不偏標準偏差の範囲に全体の68％のデータが含まれる」

班目教授は、グラフにつけられたバーを指で示した。

「グラフには不偏標準偏差などのエラーバーを付けるのが研究者の世界では基本だ。貴君が用いたExcelというソフトウェアでは、不偏標準偏差は関数『STDEV』を使うことで簡単に求められる。コスメの利用者全体（母集団）のデータの68％が存在すると期待される範囲が、不偏標準偏差のエラーバーで表わされている」

「不偏標準偏差を用いることで、私たちが調べることができない母集団のことがわかるんですね！」

（『なぜ君は、科学的に考えられないんだ？』より）

「さらに、不偏標準偏差の2倍のエラーバーをつけると、その範囲に母集団の96％が含まれることが期待される。母集団のデータがどの範囲に収まっているか、そしてどれくらいバラついているかを推定できる。これが統計学の威力だ。このエラーバーが大きいほど、そのコスメの利用者全体（母集団）のデータがバラついている……すなわち課長殿が言ったように、どれほどそのコスメに対する意見が分かれているか……ということが推定できる」

私はグラフのエラーバーをじっと見た。

「若干ですが、弊社他製品と比較して、ドクターズコスメのエラーバーが大きいように見えます。不偏標準偏差が大きいということは、商品に大満足している人もいれば、まったく気に入らない人もいる傾向が強いということを表しているんですね」

私はエラーバーをつける意味、その大きさの意味、そしてエラーバーが重なっていることの意味が理解できた。

そのデータは正規分布をとるか？

そこまでいって班目教授は、言いにくそうな顔をした。

「ひとつ言っていなかったことがある。標準偏差の範囲に全体の68％のデータが含まれるというのは、データが正規分布をしているときにのみ成り立つ話なんだ」

「正規分布……？」

私がぽかんとしている様子を見て、班目教授は説明を続けた。

「貴君の調査のように、横軸が顧客満足度、縦軸がその満足度を回答したモニターの人数……そのようなグラフを描いた場合、平均値を中心として釣鐘状になれば、正規分布をとっているといえる」

「一般的に、どういうものが正規分布をとるのですか？」

「例えば自動車の事故の頻度や、降ってくる雨粒の直径は正規分布をとる例として有名だ。貴君たちが先ほど口にした、赤信号で車が止まる事象は、正規分布に従うかもしれない」

「帰り道にデータをとってみますかね？」

片栗課長が楽しそうに言った。班目教授は笑った。

「それでは貴君たちのデータを確認してみよう。このグラフのような平均値としてまとめたものではなく、それぞれのモニターの顧客満足度の回答がわかるデータはあるかね？」

平均値を出す前の生のデータ、ということだ。もちろん私は、平均値を計算するためにそのデータを持っていた。私はそれらのデータをディスプレイに表示した。

（『なぜ君は、科学的に考えられないんだ？』より）

「これがモニター100名の顧客満足度だね。先に見た平均値と再頻値（最も多く現れる値）と中央値（分布の中心）が一致するので、正規分布をとると考えていい。正規分布の話から、別の大切なことが見えてくる。正規分布をとらないような場合、平均値だけで分析すると本質が見えないことがある」

「年収を例にとって考えよう。ある年の日本全体の男女の平均年収は461万円、年収の中央値は433万円だった。30万円ほどの差がある。この差はどこから来るかというと、計算方法に他ならない。平均値は、年収が極めて高額な希な場合の影響を受けて、中央値より高めに現れる。一方で中央値は、その値までに含まれる人数が全体の50％であるので、一般的な感覚に近いと言えるね」