「人間が完全にランダムな選択を行うことは可能なのか?」をアンケート結果から徹底検証
一切の規則性を排除し、完全にランダムな状態を作り上げることは極めて難しく、トランプやルービックキューブでは数学者が本気で取り組んでいる課題でもあります。ブリストル大学でデータ科学と計算統計学を専門に学ぶ博士課程のダニエル・ウィリアムズ氏が、インターネット上で行ったアンケート調査から「人間が完全にランダムな選択を行うことは可能なのか」というテーマについて検証を行っています。
https://dannyjameswilliams.co.uk/post/randomchoices/
ウィリアムズ氏は簡単な4つの質問から構成されるアンケートを掲示板サイトのRedditに投稿し、その回答を集計する調査を行いました。なお、最終的に回答した参加者は2190人でした。
以下が実際にRedditに投稿されたGoogleフォームです。出題された4問のうち、1問目と4問目は「1から10までの数字をランダムに選んでください」というまったく同じ問題となっていますが、1問目は「1」から「10」までを選択して回答する形式で、4問目は直接選んだ数字を入力して回答する形式となっています。また、2問目は1から50までの数字をランダムに選んで直接入力して回答する問題、3問目はAからZまでの26種類のアルファベットからランダムに1つ選んで入力する問題となっています。
ウィリアムズ氏は調査前の予想で、「1問目のように並べられた数字から選ぶ場合、人はより中心に位置する数字を選ぶ可能性が高い」と予想していました。しかし、1問目と4問目の結果を比較すると、各数字が選ばれる頻度はほとんど同じだったとのこと。
◆1問目と4問目
以下が1問目(左)と4問目(右)の結果をまとめたグラフで、横軸が選んだ数、縦軸が選んだ人数です。1つの数字が選ばれる確率は10%なので、理論上では1つの数字につき219人(太点線)が選ぶこととなります。この219人という理論値に対する実際の人数の差は、1問目でも4問目でも平均で約2.1%だったことがわかりました。
1問目でも4問目でも、最も選ばれる頻度が高かった数字は「4」でした。2019年に8500人を対象に行われた同様の調査では、最も選ばれる頻度が高かった数字は「7」だったことが判明しており、今回のウィリアムズ氏の調査結果は2019年のものと食い違うものとなりました。ウィリアムズ氏は「この調査のコメントには、2019年の調査を指摘するものもあり、意図的に7を選ばなかった人がいる可能性があります」と述べています。
また、選択肢の両端にくる「1」と「10」は中央付近の数字よりも選ばれる頻度が少なかったとのこと。ウィリアムズ氏は、「人は選択を迫られた時、選択肢の両端にあるものは避けてしまいがち」という「エッジ効果」を提唱しました。
なお、選択肢がずらっと横に並べられた1問目よりも、直接数字を入力する4問目の方が、「10」が選ばれる頻度は少なかったそうです。ウィリアムズ氏は、「10」が2桁の数字であることから、他の数字よりも入力に余分な労力が必要になるため、直接数字を入力する4問目で「10」が選ばれる頻度が低くなったのではないかと推測しています。
さらに、ウィリアムズ氏が1問目と4問目の結果からカイ二乗検定を行ったところ、P値は0.0001を下回りました。これはつまり「1問目も4問目も回答が一様に分布していない」ということが高い確実性をもって示されたことを意味します。
くわえてウィリアムズ氏は、「1」「5」「10」といった数字は「キリが良すぎる」と見なされ避けられてしまったために選ばれた頻度が低い可能性があると指摘。「今回の調査からは、人の完全なランダム性を示すことはできなかった」と論じています。
一方で、結果のすべてが理論通りにならなかったかというと、そうではありません。例えば、回答者全体の10.1%が両方の問題で同じ数を選択したことがわかりました。理論上では、両方の問題で同じ数が選択される確率は10%になるため、この結果はかなり理論値に近い数字です。
1問目で答えた数字をA、二問目で答えた数字をBとしたとき、「A−B」で表現される回答の差の分布を取ったところが以下の図。横軸がA−Bの値を、縦軸が選択した人の数を示しています。このグラフは、理論的に予想される三角分布に近いことから、「数字を2回選ぶ」という部分に人間のランダム性が垣間見えるとウィリアムズ氏は述べています。
◆3問目
3問目の結果は以下の通り。横軸が選んだ文字で、縦軸が選んだ人数です。理論的には1文字につき約84人(太点線)が選択するはずですが、グラフを見ると文字によって選択した人数にばらつきがあることがわかります。
26文字のアルファベットからランダムに選ぶという3問目は、他の問題と違って数字ではなく文字を選ぶシステムです。1問目と4問目の結果にみられた「エッジ効果」が確かであれば、AとZの頻度は他の文字よりも少なくなるはずですが、まったくそんなことはなく、3問目の結果にはエッジ効果が認められないように見えます。
以下は、英語の中でそのアルファベットが登場する頻度(横軸)と、実際の調査でアルファベットが選ばれた頻度(縦軸)をまとめたグラフ。最も英語に登場する頻度が高い「E」は、アンケートではそれほど人気がありませんでした。一方で、「J」「K」「F」「G」「H」といった文字は英語での登場頻度はそこまで高くないものの、アンケートでは人気が高いことがわかります。
ウィリアムズ氏は、この人気には、キーボードの配列が大きく影響していると論じています。実際にキーボードのQWERTY配列上に、アンケートで選ばれた頻度を示したヒートマップが以下。明らかに中央のキーの入力が他のキーよりも高いことがわかります。つまり、キーボード入力上ではエッジ効果がはっきりと表われているわけです。
また、「Q」「A」「Z」という部分も人気が高い理由は、「人はPCで操作する時、右手でマウスを握り、左手はキーボードの左側に置くから」とウィリアムズ氏は説明しています。ウィリアムズ氏は「大部分の人はすでに手を置いている場所を押すだけです。私たちはランダムに選択できないのではなく、ただ怠惰なだけではないでしょうか」とコメントしています。
◆2問目
それでは、「1から50までをランダムに選ぶ」という2問目の結果がどうなったのかというのが、以下のグラフ。横軸が選んだ数字で、縦軸は選んだ人数を表わしています。2問目は他の問題よりも選択肢に大きく幅があるため、エッジ効果が表われにくいのではないかとウィリアムズ氏は推測しました。
理論上は1つの数字につき2190÷50=約44人(点線)が選ぶこととなりますが、実際はかなり頻度に差があることがわかります。なお、最も選ばれる頻度が低かったのは、全体の0.5%にしか選ばれなかった「30」で、最も選ばれる頻度が高かったのは「37」で、選んだ人は全体の5.8%でした。
「1」から「50」のうち、「10」「20」「30」「40」「50」を選択した人を合わせると、理論上では全体の10%になるはずでしたが、実際は4.3%でした。また、「7」「17」「27」「37」「47」を選んだ人は、全体の18.7%でした。ウィリアムズ氏は、おそらく10の倍数はキリがよすぎると考えて避けた人が多いのではないかと予想。一方で、なんらかの理由で「7」を含む数字を選んでいるのは非常に興味深い結果だと述べています。エッジ効果はないものの、「キリがいい数字を避けがち」というのは1問目・4問目にも見られた傾向です。
◆まとめ
ウィリアムズ氏は「予想した通り、乱数発生器としてみると人間は精度が低く、ランダムにアイテムを選択することはかなり難しいことがわかりました」と述べています。また、今回のアンケートでは文字や数字など、規則性のある選択肢が用いられましたが、ウィリアムズ氏は「鼻、カレンダー、人、犬、政治など、まったく関連性のない選択肢を選んだ場合だとランダムに選択されるのでしょうか? いいえ、おそらく選択肢が表示される順序によってランダム性は失われると考えています。複数のアイテムを並べても、最初と最後に並んだ選択肢が選ばれる頻度は他の選択肢よりもはるかに少ないことでしょう」と予想しています。