ABテスト実践ガイド真のデータドリブンへ至る信用できる実験とはのメモ
第1部 すべての人向けの導入的トピック
第1章 導入と動機付け
-
A/Bテスト: ユーザーを二つの実験群(Variant)に分け、比較する実験
- コントロール群(Control)/介入群(Treatment)
- アイデアの価値を見積もることは難しい
- 小さな変更が巨大な影響を与えることがある
-
巨大な影響がある実験はまれである
- Bingでは年間1万件以上の実験を実施しているが、巨大な改善をもたらす「単純な変更」は数年に一度くらいしか起こらない
-
実験開始までのオーバーヘッドは小さくなければならない。
- Microsoftの実験システムExPでアイデアを化学的に簡単に評価した
- OEC(Overall Evaluation Criterion/総合評価基準)が明確でなければならない。
-
A/Bテスト(A/B/n/テスト、フィールド実験、無作為対照実験、スプリットテスト、バケットテスト、フライト)
- 対象
- UI
-
関連性アルゴリズム
- 検索
- 広告
- パーソナライゼーション
- リコメンデーション
- レイテンシ・パフォーマンス
- コンテンツ管理システム
- 顧客サポートシステム
- …等々
- チャネル
- Webサイト
- デスクトップアプリケーション
- モバイルアプリケーション
- 電子メール
- …等々
- 要件
- ユーザーは、コントロール群(既存システム)と介入群(既存システム+変更点X)に分けられる
- ユーザーは何度訪問しても同じ実験群になるように永続的な方法でランダムに実験群へ分割される。
- ユーザーのインタラクションは、計測され、監視され、ログに記録されている
- キーワード:
-
OEC(Overall Evaluation Criterion/総合評価基準): 実験の目的の定量的な測定のこと
- 短期的に(実験期間の間)で測定可能。
- 長期的な戦略目標を推進する原因だと信じられるものでなければならない
- 例: 検索エンジン
- 利用率
- 関連性
- 広告収入
- 同義語: 応答変数・従属変数、アウトカム、評価、フィットネスファンクション
-
パラメータ: OECまたは関心のある他のメトリクスに影響を与えると考えられる制御可能な実験変数のこと。
- 類義語: 因子、変数
- A/Bテストのコントロール群と介入群のどちらに属するかを識別する値のこと?
- 実験群(Variant): テストされるユーザー体験のことで、通常はパラメータの値によってユーザーにどのような体験を割り当てるかを決める。
-
ランダム化単位(Randomization Unit): 擬似乱数化によって、実験単位を各実験群へランダムに割り当てる。
- ユーザーをランダム化単位として使用することは非常に一般的であり、著者はそれを強く推奨している。
- 実験群の割り当てに影響を及ぼす要因があってはならない
-
特徴
- 因果関係を高い確率で確立する最高の科学的な方法である。
- 微細な経時変化など、他の技術では検出しにくい小さな変化も検出可能である。
- 予期せぬ変化も検出可能である。しばしば過小評価されるが、多くの実験では、パフォーマンスの低下、クラッシュエラーの増加、他の機能からのクリックの共食いなど、予期しない悪影響も起こり得る。
-
組織に求められる原則
- 組織は、データに基づいた意思決定を行いたいと考えており、OECを公式化している
- 組織は、コントロール実験を実行し、その結果が信用できるものであることを保証するために、インフラストラクチャとテストに投資する意思がある
- 組織は、アイデアの価値を評価するのが苦手であることを認識している。
- BingやGoogleのアイデアの成功率は10~20%程度
-
Slackのマネタイズ実験のうち、30%程度しかポジティブな結果を示さない
- 「もしあなたが実験主導のチームにいるなら、70%の仕事が捨てられることに慣れてください。それに応じてプロセスを構築しましょう」
- Avinnash Kaushik: 80%の時間で、顧客が何を望んでいるかについて間違った状態にいました
- Mike Moran: Netflixでは、彼らがしようとしていることの90%は悪い方向への挑戦でした
- Quicken Loans: 私は5年間実験を実施してきたが、正しく結果を推測できた確率はメジャーリーグの野球選手がヒットを出す確率同じくらいでした。つまり、私は実験を5年間続けてきましたが、私がテスト結果を推測することができるのは、33%くらいでした!
- Etsyの Dan McKinley: ほぼ全てが失敗した。最初の試みで成功することがどれほどまれなことかを実感することで謙虚になりました。私は、この経験は普遍的なものであるが、普遍的に認識されず、認められているわけでもないのではないか?と強く疑っています。
- Colin McFarland: いくら自明だと思っていても、どれだけ研究をしていても、どれだけ多くの競合他社がやっていても、時には、あなたが思っている以上に、実験のアイデアは単純に失敗することが多いのです
第2章 実験の実行と分析
事実が少ないと、意見が強くなる。 --- Arnold Glasow
-
ユーザーあたりの収益をOECとすることを推奨する
- ユーザーあたりの「ユーザー」とは?
- サイトを訪問したすべてのユーザー: 有効。だが、ノイズが多い
- 購入プロセスを完了したユーザーのみ: 適切ではない。テストが、購入を完了したユーザーの割合ではなく、購入額に影響を与えると仮定しているから
- 購入プロセスを開始したユーザーのみ: 最適な選択。変更の影響を受ける可能性がある全てのユーザーが含まれ、影響を受け取らなかったユーザーを含まない
-
統計的仮説検定に関連する概念
- ベースラインの平均値
- ベースラインの平均の標準誤差
- 実験感度: 統計的に有意な差を検出する能力。平均の標準偏差が低いほど向上する。
- より多くのトラフィックを実験群に割り当てる
-
実験をより長く実行すること
- いくつかのメトリクスでは時間の経過とともに「成長する」分散を持つのに対して、ユニークユーザー数の成長はリピートユーザーのために線形より小さくなる。
- 最初の数週間以降ではそれほど効果的ではないことがあり得る。
- 複数のサンプル(コントロールと介入群)を用意して、平均が同じであるという帰無仮説を与え、コントロールと介入群の間で差がありそうになかどうかを検定によって定量的に見る.
- 統計的検出力: 実験群の間に意味のある差が本当にあるときにそれを検出できる確率のこと(統計的にいうと、差があるときに帰無仮説を棄却できる確率)
- 統計的有意性: あなたが観察した結果や、より極端な結果が、仮定した帰無仮説のもとに偶然に起こった可能性がどれだけあり得るかを測定する。
- すべての統計的に有意な結果が実質的に意味のあるものであるとは限らない。
- ビジネスの観点から実際に1ユーザーあたりの収益ではどの程度の違いが重要なのか
- どのような変化が実用上重要なのかは統計学的には決められない
- その違いが変更を行うコストに見合うものかどうかを理解する上で重要
-
実験デザイン
- ランダム化単位は何か?
- ターゲットにしたいランダム化単位の母集団は何か?
- 実験に必要な標本の大きさ(標本サイズ)はどのくらいか?
-
指標を変更することで、サンプルサイズを小さくすることができる。
- 例: ユーザー一人当たりの収益から購入指標
- 有意水準を上げることで、大きな変化だけを検出するようにすれば、サンプルサイズを小さくすることができる
- 帰無仮説を棄却する前に、変化が起こったことをより確実にするために、p値のしきい値を下げることでサンプルサイズを増やす必要がある
- 実験の安全性が求められる場合、最初はユーザーの割合を少なくして始める
- 他の実験とトラフィックを共有する必要があるか?
- どのくらい期間、実験を実施するか?
-
より多くのユーザー: ユーザーが時間の経過とともに実験に流入するので、長い実験が実行されるほど、実験により多くのユーザーが割り当てられる。
- 通常は統計的検出力の増加につながる
- 同一ユーザーが戻ってくる可能性
- 曜日効果: 平日と週末でユーザーの分布が異なる場合がある。同じユーザーでも行動が異なるため、最低でも一週間は実験を実行することを推奨
- 季節性: 祝日
-
プライマシー効果とノベルティ効果: 実験初期の効果が大きくなったり、小さくなったりする傾向がある
- 目新しさによる行動
- 慣れが必要な機能は、その慣れの効果が現れるまで時間がかかる。
- 例:
- ランダム化単位はユーザー
- すべてのユーザーを対象にして、購入確認ページを訪れたユーザーを分析する
- 1ユーザー当たりの収益の1%以上の変化に80%の検出力を持たせる
-
コントロール:35% / 介入群1: 33% / 介入群2: 33%に割り振る。
- 最小4日間(曜日効果を考慮して、1週間実験を実行。プライマシー効果やノべルティ効果を検出したら延長する可能性もある)
- 結果を解釈する
-
実験が適切に行われたかを確認する。
- ガードレールメトリクス
- 不変性メトリクス: コントロール群と介入群の間で変化してはならないメトリクス
- 実験の信用度に関連したガードレールメトリクス
- 組織にとって重要であり、多くの実験で不変であると予想されるレイテンシなどの組織的なガードレールメトリクス
- 不変性メトリクスの正当性チェックに失敗する可能性
- 実験の設計ミス
- インフラストラクチャの問題
- データ処理の問題
- 結果からの意思決定
- 異なるメトリクス間でトレードオフを考慮する必要があるか?
-
ローンチのためのコストは回収でき得るか?
- コスト例
- ローンチ前に機能を完全に作り込むコスト
- ローンチ後の保守運用コスト
- ローンチのためのコストが高い場合、期待される利益がそれカバーできるかを確認する
- ローンチのためのコストが低い場合、わずかでもプラスになる変化もローンチ可能
- 判断を間違えた場合の影響: すべての決定も間違いも等しいわけではない
-
統計的・実用的な観点からの意思決定の指針
- 1:統計的有意性が得られない、かつ実用的有意性が得られない: 変更に効果はないと判断。再実験orローンチの断念
- 2:統計的有意性が得られた、かつ実用的有意性が得られた: ローンチの実施
- 3:統計的有意性が得られた、かつ実用的有意性が得られない: ローンチの断念
- 4:統計的有意性が実用的有意性の外側に存在する: 結果の精度を上げるためにより大きな検出力でテストを行う
- 5:統計的有意性が得られない、かつ実用的有意性が得られた: 結果の精度を上げるためにより大きな検出力でテストを行う
- 6:統計的有意性が得られた、かつ実用的有意性が得られる可能性が高い: ローンチを選択することは穏当だが、より強力にテストを繰り返すことを推奨する
-
実験の流れ
- 実験のセットアップ: 仮説と実装の確定
- 実験のデザイン
- 実験の実施とデータの収集
- 結果を解釈する
- 結果からの意思決定
第3章 トワイマンの法則と実験の信用性
-
トワイマンの法則: データが普通でない、または興味深いものであればあるほど、ある種のエラーの結果である可能性が高くなる
- 計算装置の誤り
- ロギングの誤り
- データの損失
- データの重複
- 計算上の誤り
-
統計結果の誤った解釈
- 統計的検出力の不足
- p値の誤った解釈
- p値のピーキング
- 多重仮説検定
- 信頼区間
-
内部妥当性への脅威
- SUTVA(Stable Treatment Value Assumption)の違反
- 生存者バイアス
- Intention-to-Treat
- サンプル比率のミスマッチ
-
外部妥当性の扱い: コントロール実験の結果が異なる人々の集団や期間などの軸に沿って一般化できる程度を指す
- プライマシー効果: 古い機能に慣れているユーザーが新しい機能に慣れるのに時間がかかる
- ノベルティ効果: 機能の新規性に着目され持続性のない効果が最初期に得られること
- セグメントの違い
- メトリクスのセグメントビュー
- 介入効果のセグメントビュー
- セグメント別の介入効果の分析はミスリードを起こし得る
- シンプソンのパラドックス
第4章 実験のプラットフォームと文化
- 新しいアイデアを試すコストを減らし、好循環のフィードバックループの中でそれらから学びを得ることで、イノベーションを加速させることにもなる。
-
実験習熟度モデル: 組織がデータ駆動であり、A/Bテストを通じて全ての変更を実行するまでの道のりで、組織が通過する可能性が高いフェーズを定義
- クロールフェーズ:基礎的な前提条件の構築。
- 計測装置と基本的なデータサイエンス能力の獲得
- 数回の実験を設計、実行、分析できるようにすること。
- 次のフェーズへ進むための成功を収めること
- 1実験/月
- ウォークフェーズ:標準的なメトリクスの策定とより多くの実験を実行するための組織づくり
- 計測装置の検証
- A/Aテストの実行
- サンプル比率のミスマッチテストの実行
- 1実験/週
- ランフェーズ:実験をより大規模に実施すること
- メトリクスのセットの合意
- 複数メトリクス間でのトレードオフを内包するOECを成文化する
- ほとんどの新機能と変更の評価に実験を使用
- 1実験/日
- フライフェーズ:A/Bテストはすべての変更の際の標準手法となっていること
- 新機能を作るチームが自身で実験を実施すること
- テストを助ける自動化
- すべての実験と変更を記録する制度の確立
-
実験文化の向上
- 過去の実験から学習できる
- 実験結果の共有
- 3実験/日
-
リーダーシップ
- 共有目標を確立するプロセスに関与すること
- 主要なメトリクスを改善しない限り機能を出荷しない状態へと根本的に変化させる働きかけること
- 早く失敗する文化を確立に働きかけること
- 適切な計測装置と高いデータ品質を目指すこと
- 実験結果のレビュー、解釈の方法を知ること
- HiPPO: 報酬が最高の者の意見
- センメルヴェイス反射: 新しいことに対しての強い拒絶反応
-
プロセス
- 教育プロセス: 誰もが信用できる実験を設計・実施し、その結果を正しく解釈するための基本的な理解を確実に身につけること
- 文化的規範: イノベーションへの期待の位置付けに役立ち、驚くべき失敗を祝い、常に学びたいと思うようになる。
- 実験レビューチェックリスト
- 専門家による実験の並走
- 実験のコンセプトを意識し続けるための教室開催
- 解析結果の実験レビュー会議
- 実験ダッシュボードの定義: チームが結果を共有する際に「おいしいところだけをつまみ食い」できないようにする
- OEC,ガードレール
- 関連メトリクス
- ニュースレター・電子メールでの発信
- 驚くべき結果
- 直感を構築するための多くの専攻実験のメタアナリシス
-
チームが実験をどのように取り組むか
ABテスト実践ガイド真のデータドリブンへ至る信用できる実験とはのわからないところ
- 同時に実行するときの考え方: 第4章