6x Faster ML Inference: Why Online?Batch
Кейс компании Whatnot. Они столкнулись с проблемой масштабирования пакетного ML-инференса: ежедневная обработка 10+ миллиардов пар пользователь-продавец приводила к потере покрытия и значительным финансовым потерям. Для решения пробелмы они перешли на онлайн-инференс, что позволило выдавать миллионы предсказаний с задержкой менее 200 мс и надежностью >99,9%.
Основные моменты:
- Миграция хранилища признаков с DynamoDB на Redis: это дало 3-кратное снижение задержки, особенно на длинных хвостах при параллельных батчах.
- Переход с HTTP/1.1 на gRPC (HTTP/2) для передачи данных: 6,7-кратное улучшение скорости передачи больших матриц признаков.
- Tail latency — критический фактор для онлайн-инференции: даже при хорошей средней производительности, длинные хвосты задержек могут разрушить SLO.
- Применен системный подход к оптимизации: вместо догадок — нагрузочное тестирование, grid search, пошаговая изоляция узких мест.
https://medium.com/whatnot-engineering/6x-faster-ml-inference-why-online-batch-16cbf1203947
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram