ABテストの結果を検定するには?エクセルのCHITEST関数でデータの信憑性を検証しよう。

b018

リスティング広告の運用ではABテストを実施することがよくあります。

例えば「ページに設置した赤と青のボタンではどちらがクリック率が高くなるか」や「AとBの広告文はどちらがコンバージョン率が高くなるか」というような施策です。

広告予算や実施期間を十分にかけられる場合は、たくさんのサンプル数を集めることで真の結果と近い結果を得られると思います。しかし実際にはそれらに制約があることが多く、ある程度のサンプル数で得られた結果をもとに判断をすることが多いのも事実です。

その際、得られた結果だけをもとに判断すると誤った判断になるリスクが発生します。

これからリスティング広告を始める方、運用を始めて間もない方は下記の運用マニュアルもぜひ合わせてご覧ください。現場で使えるリスティング広告の運用ノウハウをまとめています。

リスティング広告の運用マニュアル

スポンサーリンク
レクタングル(大)

サンプルが少ないと結果が偏る可能性あり

具体的な例として、コイントスの場合で考えてみましょう。コインを10回投げて表と裏のどちらが多く出るかを検証するとします。

コインを1回投げて表が出る確率は1/2(50%)ですね。裏が出る確率も同じく1/2(50%)です。このテストを10回行ったとき、確率通りに表5回と裏5回になるとは限りません。実際には、表7回と裏3回というように偏りが生じる可能性があることも推測できます。

この結果をそのまま信用して「コインを10回投げると表が出やすい」という結論を導き出せば、誰が聞いても間違っていることは分かりますよね。

【関連記事】リスティング広告の効果検証にはどれぐらいの期間が必要か?

ABテストでも同じです。少ないサンプル数での結果は一時的に偏っているだけという可能性も十分ありえます。

コイントスの場合は、1,000回、10,000回とサンプル数を増やすことで表と裏が出る確率はほぼ50%に収束します。サンプル数が多くなれば真の結果に近づけることができるわけですね。

ABテストの結果を検証するには?

ではより実践的に、冒頭の「ページに設置した赤と青のボタンではどちらがクリック率が高くなるか」で解説します。

1. 観測度数を調べる

この施策を検証して以下の結果が得られたとします。

赤いボタンを設置したページを見た人の合計:1,480人、青いボタンを設置したページを見た人の合計:1,520人、全体としては3,000人というデータです。

以下のように実際に計測されたデータ観測度数と言います。

01

各ボタンのクリック率を比較すると、赤いボタン:18.91%(280÷1,480×100)、青いボタン:14.47%(220÷1,520×100)となります。

この結果だけで判断すると、赤いボタンのほうが効果が高そうですが、前述しましたようにもしかすると偶然に偏った結果かもしれません

ここからさらにサンプル数を10,000や20,000に増やすと双方に差はなくなっているかもしれませんし、結果が逆になっている可能性もありえます。これだけのサンプル数で結論を出すのは少し不安です。そこで統計の検定を活用します。

2. 期待度数を調べる

上記の結果を別の視点でも見てみましょう。

赤いボタンか青いボタンかという条件を一旦除いて、とにかくボタンをクリックせず/クリックしたという全体の視点で考えてみると「クリックせず:クリックした=5:1」であることが分かります。見ている箇所は上の表の3行目です。パーセントに置き換えると「クリックせず」は約83.33…%、「クリックした」は約16.66…%となります。

これは「ページにボタンを設置すると約83%の人はクリックせず、約16%の人はクリックした」という全体の視点でみた結果になります。

この割合を上の表の赤いボタンの合計(1,480)と青いボタンの合計(1,520)にかけてみます。(計算例:以下の1,233=1,480×83.33…%、247=1,480×16.66…%、1267=1,520×83.33…%、253=1,520×16.66…%)

02

これらの値を期待度数と言います。「赤と青のボタンのクリック率に差はない(帰無仮説)」と仮定した場合に期待される値です。

赤いボタンを「クリックした」の値が、上の観測度数では280に対して、下の期待度数では247となっていますね。つまり、観測度数と期待度数に差が生じています

この差が「真の差」なのか「偶然の差」なのかが分からないと赤と青のボタンでのABテスト結果は信用できないと言えます。

そこでこの結果が偶然の結果であるかどうかの確率を求めます。

3. カイ二乗検定を行う

カイ二乗検定を行うためにエクセルのCHITEST関数を利用します。算出される値についてはオフィス公式サイトに以下の通り定義されています。

数式によって計算された値よりも少なくとも大きい χ2 統計の値が、独立の仮定の下で偶然発生した確率を返します。 

もう少し平たく言い換えれば、得られた結果が単なる偶然だった確率が求められるわけです。この確率が高い場合は、結果に差が出ていても均衡していても、この結果は信用に値しないという結論が導かれることになります。

エクセルの「数式」>「その他の関数」>「統計」>「CHITEST」を選択します。以下のような画面が表示されます。
※エクセル2007のメニューの場合

001

上記の①実測値範囲②期待値範囲に対応するデータは以下の通りです。それぞれ該当のエリアをドラッグして指定してください。

04

4. 結果が偶然である確率を導き出す

この例の結果では、0.11%と算出されます。

つまり、この赤と青のボタンの違いによるユーザーのクリック率の差が偶然である確率は0.11%ということになります。偶然である確率を何パーセントまで許容するかは各自で異なりますが、一般的には5%未満と設定することが多いでしょう。

今回の例では0.11%という結果(偶然性が5%にも満たない)ですので、最終的には「偶然とは言えない=差が認められる」となり、データは信用できると捉えることができます。

ここまで条件が揃って初めて、このABテストからは「赤いボタンの効果が高い」と最終的な結論まで導き出すことができます。

【関連記事】リスティング広告レポートのまとめ方

最後に

ABテストはリスティング広告の運用に限らず、様々なシーンで利用される施策です。

理屈ではどちらが効果が高かったかを調べるわけですから、結果に差が付けばそれを信用すればいいのですが、コイントスの例のように偶然に偏ったかもしれない確率は調べておかなければいけません。それを行わずに結果を鵜呑みにすると間違った方向へ進めてしまうリスクがあります。

適切な判断をするためにもABテストの検証方法については知識を深めておかれると良いと思います。

ご参考になりましたら幸いです。