Борзило (@y_borzilo): ⚖️ Как подобрать уровень значимости α и мощность для АБ теста? По умолчанию рекомендуют ис…

⚖️ Как подобрать уровень значимости α и мощность для АБ теста?

По умолчанию рекомендуют использовать α = 5%, power = 80%.

α = 5% означает, что в случае если нулевая гипотеза истинно верна, то в 5% случаев мы будем её отклонять и считать что она не верна, т.к. стат критерий обнаружит значимую разницу.

power = 80% означает, что в случае если нулевая гипотеза истинно не верна и между вариантами действительно есть значимые отличия, то в 80% случаев мы будем эти отличия обнаруживать, а в 20% нет, т.е. допускать ошибку второго рода β.

Надеюсь текст выше был вам понятен. Зачастую встает вопрос, а какие именно параметры α и мощность брать. Чтобы в этом разобраться давайте рассмотрим 2 примера.

1. Планируем запуск нового сервиса.
Компания планирует запуск рекомендательного сервиса в продукте и ожидает, что это даст прирост дохода на пользователя.

Разработка рекомендательного сервиса дело не быстрое и дорогое, нужна команда, отдельные сервера под сервис и прочее.

Бизнес хочет понять, а действительно ли для пользователей важны рекомендации и они могут дать значимый прирост метрики, перед тем как делать рекомендательный сервис.

Чтобы оценить перспективность идеи решают для отдельных выборок пользователей подготовить ручные рекомендации, собранные людьми или например каким-то простым алгоритмом и потом привязать их к определенным пользователям.

В этой ситуации у нас еще нет рекомендательного сервиса, его разработка стоит дорого и нам важно убедиться, что он действительно даст значимый прирост arpu.

В такой ситуации я бы постарался взять α < 5%, например 1% или 0,01%. Т.к. нам нужно точно знать, что сервис будет приносить рост дохода и что наш результат АБ теста это не ложноположительный результат.

Не приятно потратить пол года разработки, кучу денег, а потом обнаружить, что сервис рекомендаций не дает прироста, т.к. на АБ тесте мы получили ложноположительный результат.

2. Мы уже запустили новый сервис
Допустим все тот же рекомендательный сервис. Но мы перед тем как его делать не проводили АБ тест, чтобы оценить перспективность идеи.

Полгода разработки прошли, куча денег потрачена, все очень верят и хотят результат.

Здесь бы я постарался максимизировать мощность АБ теста и вместо 80% взял бы например 95%.

Все затраты на разработку уже произведены и для нас очень важно найти стат. значимый прирост.

Потому что жалко просто выкинуть результат работы за пол года по причине того, что тест имел недостаточную мощность и не сумел найти прирост, хотя он на самом деле есть.

Максимизируя мощность, мы уменьшаем вероятность ошибки второго рода. Если мы берем мощность 95%, то ожидаем, что обнаружим стат значимое изменение в 95%, а не 80% случаев, как при стандартном уровне мощности.

Обсуждение 0

Вход в экосистему

Ваши настройки cookie