SRM - дисбаланс выборок
Это когда вы запускали АБ тест например с делением трафика 50/50, а получили какое-то другое.
Точное деление вы
никогда (маловероятно) не получите, но близкое получить должны. Для того чтобы проверить корректность деления трафика можно использовать критерий хи2.
Этот критерий проверяет фактический баланс выборок в сравнении с ожидаемым и в качестве ответа выдает статистику и p-value.
Т.е. p-value здесь - это вероятность получить такое распределение пользователей по вариантам, при условии, что деление идет корректно и никакие штуки типа долгой загрузки страниц не аффектят на один из вариантов.
H0: деление трафика фактическое соответствует ожидаемому
H1: деление трафика фактическое не соответствует ожидаемому
Чем больше p-value, тем лучше, т.к. мы не хотим отвергать H0, т.к. она гласит о том, что деление трафика идет верно, а если мы её отвергнем, то встанет вопрос валидности всего АБ теста.
Хи 2 можно посчитать в экселе или в питоне, а можно пойти в готовый калькулятор, например такой
https://www.lukasvermeer.nl/srm/microsite/
Вопрос к аудитории
Проверяете ли вы SRM при подведении итогов АБ теста? Какой уровень значимости(альфа) выбираете для определения SRM? Считаете ли вы АБ тест валидным, если получили SRM?
Обсуждение 9
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram