Борзило
@y_borzilo
Доктор, у меня АА тест прокрасился. Это норма?
Давайте поговорим про АА тесты. Это такой вид тестов когда в качестве вариантов(контроля и теста) запускаем 2 абсолютно одинаковых варианта.
Соответственно раз варианты одинаковые, а механизм распределения пользователей это рандом, то мы ожидаем, что наши целевые метрики в обоих вариантах будут одинаковые, ну или очень сильно похожи.
Но иногда в АА тестах вы получаете стат. значимые отличия метрик, хотя разницы-то в вариантах нет.
В таких случаях обычно сразу начинают искать проблему в механизме рандомизации или в имплементации самого эксперимента в продукте.
Как понять это норма или нет?
Давайте обратимся к идеи стат. тестов. Нулевая гипотеза — это гипотеза о том, что в вариантах нет разницы.
P value — это вероятность получить отличия в метрике, при условии, что отличий в вариантах нет.
Т.е. сам стат критерий устроен так, что он не дает вам точный ответ отличаются ли варианты или нет.
Он лишь дает некоторую вероятностную оценку того, что полученные отличия в метрике могут существовать при верности нулевой гипотезы.
Для проведения АБ теста мы задаем некоторый уровень альфа, с которым будем сравнивать p value и в случае если p val< альфа отвергать нулевую гипотезу.
Если мы проводим 1000 АА тестов при уровне альфа 5%, то примерно в 50 АА тестах мы получим стат значимые отличия в метрике, хотя никаких отличий в вариантах нет. Это так называемые ошибки первого рода и это нормально
Если вы проводите один АА тест и получили стат. значимые отличия, то тут нельзя говорить о том, что есть какие-то проблемы в рандомизации или имплементации эксперимента.
Для того чтобы оценить ситуацию более объективно вам нужно провести большее число АА тестов. Например провели вы 10 АА тестов и получили во всех 10 стат значимые отличия, то тут повод крепко задуматься о том что вы где-то косячите, т.к. получить стат. значимые отличия во всех 10 АА тестах маловеротяно.
Кроме этого есть подход когда мы на основе имеющихся данных проведенного АА теста, проводим множество искусственных симуляций и проверяем долю ложно положительных срабатываний критерия, она должна быть близка к альфе.
Если эта доля ложно положительных срабатываний на симуляциях сильно отклоняется от альфы, то это повод поискать проблемы.
Кроме этого завышенную долю ложных срабатываний на симуляцих могут давать ratio метрики, т.к. к ним зачастую нельзя применить стандартные стат. тесты в лоб.
Резюме
1. Если в рамках одного АА теста вы получили стат значимые отличия, то нельзя сделать вывод о не корректности работы вашей системы сплитования.
2. Проводите больше АА тестов, чтобы понять ситуацию точнее.
3. Используйте симуляции АА тестов.
4. Не всегда большая доля прокрасов на АА тестах это проблемы сплитования. Возможно вы просто используете ratio метрики без специальной обработки результатов теста.
Давайте поговорим про АА тесты. Это такой вид тестов когда в качестве вариантов(контроля и теста) запускаем 2 абсолютно одинаковых варианта.
Соответственно раз варианты одинаковые, а механизм распределения пользователей это рандом, то мы ожидаем, что наши целевые метрики в обоих вариантах будут одинаковые, ну или очень сильно похожи.
Но иногда в АА тестах вы получаете стат. значимые отличия метрик, хотя разницы-то в вариантах нет.
В таких случаях обычно сразу начинают искать проблему в механизме рандомизации или в имплементации самого эксперимента в продукте.
Как понять это норма или нет?
Давайте обратимся к идеи стат. тестов. Нулевая гипотеза — это гипотеза о том, что в вариантах нет разницы.
P value — это вероятность получить отличия в метрике, при условии, что отличий в вариантах нет.
Т.е. сам стат критерий устроен так, что он не дает вам точный ответ отличаются ли варианты или нет.
Он лишь дает некоторую вероятностную оценку того, что полученные отличия в метрике могут существовать при верности нулевой гипотезы.
Для проведения АБ теста мы задаем некоторый уровень альфа, с которым будем сравнивать p value и в случае если p val< альфа отвергать нулевую гипотезу.
Если мы проводим 1000 АА тестов при уровне альфа 5%, то примерно в 50 АА тестах мы получим стат значимые отличия в метрике, хотя никаких отличий в вариантах нет. Это так называемые ошибки первого рода и это нормально
Если вы проводите один АА тест и получили стат. значимые отличия, то тут нельзя говорить о том, что есть какие-то проблемы в рандомизации или имплементации эксперимента.
Для того чтобы оценить ситуацию более объективно вам нужно провести большее число АА тестов. Например провели вы 10 АА тестов и получили во всех 10 стат значимые отличия, то тут повод крепко задуматься о том что вы где-то косячите, т.к. получить стат. значимые отличия во всех 10 АА тестах маловеротяно.
Кроме этого есть подход когда мы на основе имеющихся данных проведенного АА теста, проводим множество искусственных симуляций и проверяем долю ложно положительных срабатываний критерия, она должна быть близка к альфе.
Если эта доля ложно положительных срабатываний на симуляциях сильно отклоняется от альфы, то это повод поискать проблемы.
Кроме этого завышенную долю ложных срабатываний на симуляцих могут давать ratio метрики, т.к. к ним зачастую нельзя применить стандартные стат. тесты в лоб.
Резюме
1. Если в рамках одного АА теста вы получили стат значимые отличия, то нельзя сделать вывод о не корректности работы вашей системы сплитования.
2. Проводите больше АА тестов, чтобы понять ситуацию точнее.
3. Используйте симуляции АА тестов.
4. Не всегда большая доля прокрасов на АА тестах это проблемы сплитования. Возможно вы просто используете ratio метрики без специальной обработки результатов теста.
❤ 12
👍 5
17 43 2.2K
Обсуждение 17
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram