「アンケートを送ったら、それで運用終わり」と思っていませんか?実はアンケートも、Webサイトや広告と同様に AB テスト で継続的に改善できます。
本記事では、何をテストすべきか、どう運用するかを解説します。
アンケート AB テストの目的
1. 回答率の最大化
同じ目的の調査でも、設計次第で回答率は2倍以上変わります。
2. 回答品質の向上
設問の聞き方一つで、自由記述の質が大きく異なります。
3. CVR の向上
サンキューページや個別相談誘導は、テストで継続的に改善できる領域です。
テストすべき要素
1. 設問の順序
パターンA: 満足度→自由記述
パターンB: 自由記述→満足度
設問順序によって回答が変わります(順序効果)。経年比較したいなら順序は固定。新規調査なら最適順序を探る価値あり。
2. 選択肢の文言
パターンA: 「とても満足」「満足」「普通」「不満」「とても不満」
パターンB: 「非常に満足」「やや満足」「どちらでもない」「やや不満」「非常に不満」
ニュアンスの違いで分布が変わります。
3. 必須/任意の切り替え
パターンA: 連絡先を必須
パターンB: 連絡先を任意
必須 → 完了率が落ちるが個別フォロー可 任意 → 完了率は上がるが個別対応リード数は減る
4. 配信メールの件名・本文
メール開封率は件名で大きく変わります。
パターンA: 「アンケートのお願い」
パターンB: 「【1分でOK】先日のセミナーアンケート」
5. サンキューページのCTA
パターンA: 「個別相談を予約する」
パターンB: 「資料をダウンロード」
どちらが次のアクションに進みやすいかをテスト。
6. インセンティブ
パターンA: 全員に Amazon ギフト 100円
パターンB: 抽選で 5名に 5,000円
どちらが回答率を上げるかは業界・回答者属性で変わります。
AB テストの設計
サンプル数の確保
統計的に意味のある差を検出するには、各バリエーションで 最低200件以上 が目安。
施策効果が大きい場合(CVR が 1.5倍以上): 各 200件
施策効果が中程度(1.2〜1.5倍): 各 500件
施策効果が小さい(1.05〜1.2倍): 各 1,000件以上
サンプル数が少なすぎると、効果があっても検出できません。
期間の設計
最低 2週間 走らせる。曜日・時間帯のばらつきを吸収するため。
バリエーション数
2パターン(A/B)に絞る。3パターン以上(A/B/C)になると、必要サンプル数が爆発的に増えます。
テスト要素の単一化
複数の要素を同時に変えると、何が効果を生んだか分からなくなる。1テスト1要素 が原則。
レポアンでのABテスト方法
方法1: 別フォームを作成して比較
1. AI に「Aパターンの設問構成」を依頼してフォーム1作成
2. 同じく「Bパターンの設問構成」でフォーム2作成
3. ランダムに50%ずつ配信
4. 集計結果を比較
最も簡単な方法。
方法2: 同フォーム・配信先を変える
- メールリストを2分割
- A グループには件名Aで配信
- B グループには件名Bで配信
- 開封率・回答率を比較
メール文面のテストに有効。
方法3: サンキューページのテスト
1. フォーム→サンキューページ A 経由
2. フォーム→サンキューページ B 経由
3. CTA クリック率・最終CV率を比較
レポアンのサンキューLP 機能と組み合わせて運用。
評価指標
プライマリ指標
最も重要な指標を1つ決める。例:
- 回答完了率
- 個別相談予約率
- ダウンロード率
セカンダリ指標
副次的に見る指標。
- 設問ごとの離脱率
- 平均回答時間
- 自由記述の平均文字数
ガード指標
「下げてはいけない」指標。
- 例: 「個別相談予約率を上げる」テストで、回答完了率が大きく下がってはいけない
統計的な有意差判定
「Aが10% Bが12%」だけでは差があるかどうか判断できません。統計的有意性 を確認します。
簡易判定(カイ二乗検定)
Excel の CHISQ.TEST 関数で判定可能。
Aパターン: 200件中、20件コンバージョン → CVR 10%
Bパターン: 200件中、30件コンバージョン → CVR 15%
p値 = 0.04(< 0.05 なので有意)
→ Bパターンの効果あり
サンプル数が少ないとき
A/B 各50件程度では、統計的に意味のある差は検出しにくい。最低でも各200件 は欲しい。
やってはいけない AB テスト
❌ 期間が短すぎる
3日で判定して「Bが勝った」と決めるのは危険。曜日効果のばらつきがある。
❌ ランダム化していない
「Aパターンを午前中、Bパターンを夜に配信」は時間帯バイアスが入る。完全ランダム に配信。
❌ 同時に複数要素を変える
「件名と本文と CTA をすべて変えた」では、何が効いたか不明。
❌ p値ハッキング
何度も検定して「ようやく有意になった」と発表するのは統計的不正。
AB テストの限界
バイアスは消えない
回答者属性のばらつき・季節性・社会情勢など、AB テストでも吸収できないバイアスはある。
細かい改善は時間がかかる
CVR を 10% から 12% に上げるには、相当のサンプル数が必要。リソース対効果を考える。
大胆な変更も時には必要
既存の構成を微調整するだけでは限界がある。フレームワークから変える挑戦も時には必要。
まとめ
アンケート AB テストの基本:
- テスト要素を単一化(1テスト1要素)
- 各 200件以上のサンプル数
- 2週間以上の期間
- 統計的有意性 を確認
- プライマリ指標とガード指標 を分ける
レポアンでは、フォームを複数作成して比較する形で AB テストを実装できます。AI レポートで集計結果を比較すれば、効果検証も効率的です。