Чат Бо (@bor_chat): На Хабре вышла , в которой упомянули мое имя - мимо такого я пройти не смог. Статья неплох…

На Хабре вышла статья, в которой упомянули мое имя - мимо такого я пройти не смог. Статья неплохая, однако я вижу минимум три важных момента, которые надо учитывать:

1. Статистика и распределения
Мы легко можем адаптировать t-статистику или любую другую метрику под наше распределение. Это значит, что p-value всё равно будет равномерным для широкого класса данных, просто статистики будут другими. Например, в статье была выбрана "магазино-дневная" грануляция, что позволило получить равномерное распределение p-value. Это логичный выбор, но могли бы выбрать любую другую (например, "магазино-час" или "магазино-секунда"). Для таких случаев рекомендую ознакомиться с этой статьёй от Х5. Выбрали грануляцию, обеспечивающую равномерное распределение p-value и наилучшее соотношение роста данных и дисперсии. Кроме того, можно посмотреть сюда - Dealing With Ratio Metrics in A/B Testing at the Presence of Intra-User Correlation and Segments.
2. Зачем нужен CUPED?
CUPED помогает нормировать данные и устранять зависимости. Если в данных есть корреляции, то с помощью CUPED и ML-моделей можно минимизировать этот эффект и сгладить дисперсии.
3. A/A-тесты — основа основ
В статье справедливо упомянуто, что перед запуском всегда проводился дизайн теста и проверка на A/A. Это базовый шаг, без которого нельзя судить об адекватности методологии. Мы делаем то же самое с первых итераций наших A/B тестов, чтобы быть уверенными в корректности инструментов.

Выводы:
Статья адекватная, но видно, что это не работа гранда: где-то упрощения, где-то ошибки
Важен не факт наличия зависимости в данных, а то, насколько хорошо мы контролируем распределение p-value
Нужен модуль валидации для получения распределений А/А и синтетических А/Б

Обсуждение 0

Вход в экосистему

Ваши настройки cookie