Борзило (@y_borzilo): 🛑 Почему не стоит выкатывать тестовый вариант, если был получен статистически не значимый …

🛑 Почему не стоит выкатывать тестовый вариант, если был получен статистически не значимый результат в АБ тесте?

Когда мы запускаем АБ тест, то можем получить 2 результата:
1. Метрика между вариантами эксперимента стат. значимо отличается (в плюс или в минус)
2. Метрика между вариантами эксперимента не имеет стат. значимых различий

Если метрика в тесте лучше чем в контроле и получено стат. значимое различие, то можно выкатывать экспериментальную версию.

Но если мы открутили АБ и не смогли обнаружить стат. значимых различий может появиться вопрос, а можем ли мы выкатить тестовую версию, кажется что тестовая и контрольная версия дают одинаковый результат, раз нет стат. значимых отличий. На самом деле это не так, тут есть важный нюанс.

При дизайне АБ теста закладывается определенный MDE, минимальный обнаруживаемый эффект и мощность, т.е. вероятность с которой мы хотим обнаружить этот эффект (обычно 80%). В зависимости от MDE, мощности, а также уровня альфа определяется размер выборки, который нужен чтобы обнаружить эффект равный MDE в 80% случаев.

Когда же мы открутили заранее определенную выборку, но не получили стат. значимых отличий, то это говорит о том, что скорее всего эффекта заданного размера нет, иначе бы мы его обнаружили, но может быть другой эффект который меньше чем MDE. Этот эффект может быть как в плюс так и в минус, но для того чтобы задетектировать этот эффект с определенной мощностью нужен больший объем выборки.

Т.е. получается, что выкатив тестовую версию при отсутствии стат значимых различий, через какое-то время мы можем получить рост или падение нашей метрики на всей базе продукта. Согласитесь, что никто бы не хотел внезапного падения метрики, поэтому не стоит выкатывать тестовую версию при отсутствии стат. значимого улучшения.

Обсуждение 2

Вход в экосистему

Ваши настройки cookie