Почему АБ тест - это НЕ идеальный инструмент оценки изменений?⚠️

Я когда работал маркетологом и не вдавался в подробности АБ тестирования, то мне казалось, что АБ тестирование это такой железобетонный способ выяснить истину, какой из вариантов лучше. Но оказалось, что это далеко не так

1. Ошибки первого и второго рода
У вас нет абсолютной точности. Каждый АБ тест может дать ошибку. Т.е. вы можете найти отличия там где их нет или наоборот не найти отличия там где они есть

2. Вы точно не знаете какой срок проведения АБ теста и MDE вам нужен
Зачастую, хочется в АБ тестах находить даже самые маленькие эффекты, но тогда нам нужно проводить его бесконечно.

Т.е. мы не знаем заранее какой эффект даст АБ тест и не знаем сколько времени для обнаружения этого эффекта нам понадобится. С другой стороны мы не можем держать АБ тест вечно, чтобы найти даже самый маленький эффект.

3. Изменчивость результата во времени
Когда мы проводим АБ тест, то в продукте может быть один состав аудитории, потом мы решили привлечь новую аудиторию. Не факт, что эффект полученный в АБ тесте проведенном на одной аудитории сохраниться для другой аудитории

4. Размер эффекта неточный
Вот мы провели АБ тест, получили какие-то различия в метриках по вариантам. Это называется наблюдаемый эффект. Но если мы проведем еще один точно такой же АБ тест, то получим какой-то другой наблюдаемый эффект.

Т.е. мы никогда не можем абсолютно точно оценить реальный эффект. Конечно можно посмотреть на доверительный интервал эффекта, но это тоже не гарантирует нам абсолютной точности.

5. Проблемы выбора сегментов
Не всегда очевидно, стоит ли запускать АБ тест на весь объем трафика и оценивать все в совокупности или нужно выделять отдельные сегменты и по ним считать метрики, т.к. эффекты в этих сегментах могут быть противоположны. Т.е. на всем объеме трафика может быть отсутствие стат значимых изменений, а в сегментах они могут быть.
👍 29
6
🔥 2
4 39 4.7K

Обсуждение 4

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram