Мифы про АБ тестирование. Часть 2
Судя по реакциям и сохранениям первая часть мифов про АБ тестирование вам зашла. Поэтому написал еще часть.

1. АБ тесты повышают конверсию
Сам по себе АБ тест не повышает конверсию и никак не влияет ни на какие метрики. АБ тест - это инструмент для измерения, типа как линейка.

Сам по себе он ничего не меняет. На метрики влияют гипотезы, которые вы хотите проверить в АБ тесте. А точнее конкретная реализация гипотезы.

2. Ошибка второго рода не важна
Хочется сказать false negative lives matter Заметили как во всех статьях топят за всякие поправки на множественные сравнения, все твердят про подглядывания, но мало кто делает акцент на максимизации мощности и критичности ошибок второго рода.

Особенно это может быть критично, если вы живете на инвесторские деньги и вам важно не пропустить эффект, чтобы компания начала зарабатывать.

3. Если p-value меньше 0.05 несколько дней, то точно стат значимо
Если p-value у вас держится меньше альфы несколько дней подряд, то это ни о чем не говорит. В логике фиксированного горизонта планирования экспериментов мы должны только один раз подвести итоги эксперимента.

Если мы это будем делать несколько раз (смотреть плато каждый день), то это приведет к росту числа ошибок первого рода.

4. Нужно тестировать как можно больше вариантов
Кажется у гугла был эксперимент, когда они тестировали 30 оттенков синего. Чем больше у вас вариантов, тем выше вероятность допустить ошибку первого рода, чисто в силу случайности.

Чтобы нивелировать возможность ошибок первого рода нужно занижать альфу, но тогда нужно собирать больше выборку, а это увеличивает сроки АБ. Короче первое правило АБ тестировании - не тестируй всякую фигню (если ты не Google)

5. Самое сложное в АБ тестировании - выбрать стат критерий
Как писал в первой части, t-test может закрыть 80% кейсов. На самом деле большая часть времени должна уходить на ресерч и выработку гипотез перед АБ тестом.

Следующий по трудоемкости этап - это дизайн АБ теста, понять на какой целевой группе проводим тест, какие группы исключаем, понять ограничения, выбрать точки сплитования и прочее.

Выбор метрик - отдельная песня, LTV - классная бизнес метрика, но долгая и не чувствительная. CTR - быстрая и чувствительная метрика, но не всегда имеет бизнес-смысл.

После эксперимента нужно провалидировать результаты, поискать сигналы в данных для новых экспериментов. Короче стат критерии это от силы 5% - АБ теста.

Пишите в комменты, какие еще мифы вы видите вокруг АБ тестов. Накиньте
если тема с мифами нравится
🔥 40
👍 6
5
18 30 3.7K

Обсуждение 18

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram