A/Bテスト」とは、例えば画像や文章を複数パターン用意し、それらを入れ替えて表示させてユーザーの反応を比較することで、より優秀なレイアウトやデザインを判断する手法としてウェブサイト構築で活用されています。しかし、A/Bテストを行うソフトウェアの中には統計学的な視点が欠けていて、利益を生まずまったく意味がないものや、反対に結果を見誤り有害なものさえあるとQubitのマーティン・グッドソン氏が警鐘を鳴らしています。

mostwinningabtestresultsareillusory_0.pdf

(PDFファイル)http://www.qubit.com/sites/default/files/pdf/mostwinningabtestresultsareillusory_0.pdf

グッドソン氏は統計学の基本を押さえていないA/Bテストツールが世の中に出回っていると述べ、場合によってはテストしたことで利益を失うこともあると指摘しています。グッドソン氏は統計学的な観点から、以下の3つのポイントを抑えた正しいA/Bテストを推奨しています。

◆1:十分なサンプル

例えば、「男性と女性はどちらの方が背が高いか?」というテーマで調査するときに、1人の男性と1人の女性の身長を調べて結論を出す、という手法が馬鹿げていることは明らかです。偶然、とんでもなく背の高い女性と、とんでもなく背の低い男性を選んでしまえば、「女性の方が男性よりも背が高い」という間違った結論を出してしまうからです。

このような偶然によるまぎれを極力排除するためには「サンプル数が多いこと」が統計学的な鉄則です。仮にサンプル数が少ない場合は、テストした時間が無駄になるだけでなく、間違った結論を導く危険性もあるとグッドソン氏は指摘しています。例えば、統計学的に有意な差を導くために2カ月間のA/Bテストが必要な場合に、時間を節約するために2週間だけテストするという場合を考えると、テスト結果が間違ったものになる確率は67%にもなるとのこと。

グッドソン氏は、500個の差が現れたときにテストを停止することを推奨する方法論や、たった150人で試したテストや、たった100個の差で結論を出しているテストなどを挙げて、「これらのテストはまったく機能しない」と指摘して、A/Bテストに必要なサンプルの最低数は「6000」だと述べています。



Googleのデータによると、ウェブサイトにわずかな変化を加えることで良い効果を生むのは10%で、残りの90%は無駄な変更か悪影響を及ぼす変更だとのこと。仮に2カ月間繰り返したA/Bテストの精度が80%だったとすると、100個試した変更点のうち効果的なものは10個で、A/Bテストの精度からみつけられるのは8個ということになります。また、有意性のまぎれを示すp値が0.05という一般的な条件では、見抜けなかった効果的なものは90個の5%である4.5個であることから、100個の変更点のうち効果的な変更は8+4.5=12.5個となります。

もしもサンプル数が少ないため精度の悪いA/Bテストの場合、例えば精度が30%しかないならば、統計学的にはA/Bテストの結果、「効果的な改良である」と判断したものの63%が間違いになるとグッドソン氏は述べています。

◆2:複数のテスト

肯定的な結果が得られるとそこでテストを中止するように設計されているA/Bテストツールが多いとグッドソン氏は指摘します。しかし、A/Bテストで「効果あり」という結果が出た変更点を、繰り返しテストしてコンバージョン率を調べる「A/Aテスト」をしてみれば、早すぎる結論が誤りだとわかるとのこと。A/Bテストの結果とA/Aテストの結果が一致しなければ、その結果は間違いです。



他方で、複数のA/Bテストを同時に行うことで効果が得られるという考えも見受けられるものの、好ましくないとのこと。「下手な鉄砲数打ちゃ当たる」という戦略よりも、適切な仮定を前提に、ポイントを絞ってサンプル数の多い状態でテストするべきだとグッドソン氏は述べています。

◆3:平均への回帰

統計学には「平均への回帰」と呼ばれる現象が知られています。例えば、著しく悪い試験結果だった集団の平均点は、次回の試験時にはより平均値に近づきやすくなるという現象を指します。A/Bテストでも平均への回帰は当然起こるため、早い時点では効果的に思われた変更も、時間がたつと数値が下がっていくことがあります。時間の経過と共に有効性が薄く感じる場合、その変更はコンバージョン率アップに役に立たなかったから、ということは十分あります。



グッドソン氏は、A/Bテストの結果は過剰に評価してしまう「勝者の呪い」と呼ばれる状況に陥ることが多いと述べています。時間が経つにつれて効果が薄れていくように感じる場合は、A/Bテストが適切に行われたかどうかを確認するのが大切で、再テストすることはさらに結果の信頼性を盤石なものにすると述べています。