UGA Boxxx

つぶやきの延長のつもりで、知ったこと思ったこと書いてます

【テスト】ABテスト概論のスライドを読んで

リクルートの研修で使われた資料を読んでABテストの理解を深めた

speakerdeck.com

ABテストはよく行うが、有意差のありなしですべて判定していたところがあり、そこに落とし穴かもしれないというところに学びがあった

内的妥当性と外的妥当性の落とし穴についてメモしておく

内的妥当性の落とし穴

例えば

データの統計的扱いにミス

p-hackingしてしまっている

p-hackingとは
望ましいp値（0.05未満）を見つけることを目的として、さまざまな方法で多数の統計分析を実行する方法

対策としてはA/Aテストを実施するなどで異常を検知する

AAテストとは
オリジナルとバリエーションで一切の要素を変更することなく、同一の比率で出し分けて、結果をレビューする手法です。

残留効果

過去の割り当ての使い回しをしている

こちらも過去のテストを終えた後にA/Aテストを実施するなどで検知する

外的妥当性の落とし穴

例えば

慣れや新規性の影響

・慣れた画面でないから使いにくい
・物珍しいからクリック

対策として、実験期間中の最初の方と後半に分けて分析することで検知する

長期影響

・市場やモデルの変化
・機械学習モデルの劣化

長期実験で検知する

その他

スライドで紹介されていたABテスト実践ガイドは持っていたが積んでいたのでこれを機に読んでみる

A/Bテスト実践ガイド　真のデータドリブンへ至る信用できる実験とは (アスキードワンゴ)

A/Bテスト実践ガイド　真のデータドリブンへ至る信用できる実験とは (アスキードワンゴ)

作者:Ron Kohavi,Diane Tang,Ya Xu,大杉直也
ドワンゴ