Борзило
@y_borzilo
7 мифов про АБ тесты
1. Абсолютная вера в результат АБ теста
Если АБ тест обнаружил значимый эффект - это может быть ошибка первого рода, а не реальный эффект. Если АБ тест не обнаружил эффекта, то может у вас просто не хватило размера выборки чтобы найти существующий эффект.
2. Нужно разбираться в десятках стат критериев чтобы делать АБ
На самом деле 80% АБ тестов закрывает обычный t-test, а для того что он не закрывает чаще всего можно использовать бутстрап))
3. Ты не можешь использовать z-test, т.к. не знаешь параметров ГС
В теории да. Но если мы взглянем на формулу z-test и t-test, то они практически идентичны, с той оговоркой что в z-test нам нужно подставлять параметры ГС, но их у нас нет.
Поэтому подставим выборочные оценки, а т.к. АБ тесты обычно про большие выборки, то оценки будут близки к параметрам ГС, а стандартная ошибка стремительно уменьшаться.
t-test использует t распределение, которое сходится к нормальному при большом объеме выборки. По факту если мы АБ тест посчитаем через z-test или t-test, то получим очень близкие результаты, отличия будут практически не заметны. Если конечно у вас очень маленькие выборки в АБ, то так лучше не делать.
4. Для применения t-test нужно нормальное распределение данных выборки
На самом деле этого не требуется, важно чтобы распределение выборочных средних было нормальным, а это тоже почти всегда работает благодаря ЦПТ. Так что даже если ваша выборка имеет логнормальное распределение, то t-test скорее всего можно будет использовать
5. Если в АБ тесте мы получили улучшение метрики на 5% - то это реальный размер эффекта
Тот эффект, который мы видим в конкретном АБ тесте это точечная оценка, которую мы получили в этом эксперименте. Чем больше объем выборок тем ближе полученный эффект будет к истинному. Поэтому аккуратно делаем выводы если у вас маленькие выборки и смотрим на доверительный интервал для эффекта
6. Подглядывать за АБ тестами нельзя
Подглядывать за АБ тестами нужно, иначе вы не узнаете что у вас там что-то сломалось😁 А вот решение принимать о результате АБ теста нужно только 1 раз при фиксированном подходе к АБ, ну либо сразу дизайнить эксперимент под методики последовательного тестирования.
7. Если в АБ тесте вы не нашли стат значимых отличий, то отличий нет
Каждый АБ тест дизайнится с учетом определенного MDE. Если вы взяли довольно маленькие выборки, то вы сможете найти только достаточно большие эффекты, а маленькие просто в силу недостатка мощности эксперимента не найдете, а они могут быть.
Вы можете решить что разницы нет и выкатить изменение, а на самом деле разница отрицательная и вы ухудшите показатели продукта, но не заметите этого из-за сезонности и прочих колебаний метрики.
1. Абсолютная вера в результат АБ теста
Если АБ тест обнаружил значимый эффект - это может быть ошибка первого рода, а не реальный эффект. Если АБ тест не обнаружил эффекта, то может у вас просто не хватило размера выборки чтобы найти существующий эффект.
2. Нужно разбираться в десятках стат критериев чтобы делать АБ
На самом деле 80% АБ тестов закрывает обычный t-test, а для того что он не закрывает чаще всего можно использовать бутстрап))
3. Ты не можешь использовать z-test, т.к. не знаешь параметров ГС
В теории да. Но если мы взглянем на формулу z-test и t-test, то они практически идентичны, с той оговоркой что в z-test нам нужно подставлять параметры ГС, но их у нас нет.
Поэтому подставим выборочные оценки, а т.к. АБ тесты обычно про большие выборки, то оценки будут близки к параметрам ГС, а стандартная ошибка стремительно уменьшаться.
t-test использует t распределение, которое сходится к нормальному при большом объеме выборки. По факту если мы АБ тест посчитаем через z-test или t-test, то получим очень близкие результаты, отличия будут практически не заметны. Если конечно у вас очень маленькие выборки в АБ, то так лучше не делать.
4. Для применения t-test нужно нормальное распределение данных выборки
На самом деле этого не требуется, важно чтобы распределение выборочных средних было нормальным, а это тоже почти всегда работает благодаря ЦПТ. Так что даже если ваша выборка имеет логнормальное распределение, то t-test скорее всего можно будет использовать
5. Если в АБ тесте мы получили улучшение метрики на 5% - то это реальный размер эффекта
Тот эффект, который мы видим в конкретном АБ тесте это точечная оценка, которую мы получили в этом эксперименте. Чем больше объем выборок тем ближе полученный эффект будет к истинному. Поэтому аккуратно делаем выводы если у вас маленькие выборки и смотрим на доверительный интервал для эффекта
6. Подглядывать за АБ тестами нельзя
Подглядывать за АБ тестами нужно, иначе вы не узнаете что у вас там что-то сломалось😁 А вот решение принимать о результате АБ теста нужно только 1 раз при фиксированном подходе к АБ, ну либо сразу дизайнить эксперимент под методики последовательного тестирования.
7. Если в АБ тесте вы не нашли стат значимых отличий, то отличий нет
Каждый АБ тест дизайнится с учетом определенного MDE. Если вы взяли довольно маленькие выборки, то вы сможете найти только достаточно большие эффекты, а маленькие просто в силу недостатка мощности эксперимента не найдете, а они могут быть.
Вы можете решить что разницы нет и выкатить изменение, а на самом деле разница отрицательная и вы ухудшите показатели продукта, но не заметите этого из-за сезонности и прочих колебаний метрики.
👍 57
🔥 14
❤ 6
3 67 3.7K
Обсуждение 3
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram