🌋 Peeking problem - проблема подглядывания в АБ тестах или почему не стоит стопать эксп раньше времени
На прошлой неделе в комментах попросили объяснить проблему подглядывания и ранней остановки АБ тестов. Решил, что это будет полезно многим. Поэтому вынесу в отдельный пост и даже подготовил симмуляцию в коллабе.
Что такое подглядывание?
Например вы каждый день ходите и смотрите результат АБ теста, считаете p value и готовы как только АБ тест покажет стат значимое изменение p_val<0.05, признать его завершенным.
Такой подход увеличивает ошибку первого рода. Т.е. вы будете часто находить стат значимые изменения в экспериментах в которых в реальности разницы между вариантами нет.
А мы хотим минимизировать ошибки, а такой подход их увеличивает. Чтобы понять эту тему, нужно понять что такое ошибка первого рода и как она возникает и как работают статистические критерии для проверки гипотез - их идею.
Про симуляции
Симуляция демонстрирует, как влияет досрочная остановка эксперимента на уровень ошибки первого рода.
Первый вариант оценивает ошибку первого рода на 1000 АА тестов при фиксированном размере выборки.
Второй вариант оценивает ошибку первого рода на 1000 АА тестов при подглядывании, когда мы каждый день дособираем по +100 пользователей в выборки и каждый раз рассчитываем p value при помощи t test
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram