avatar
Клуб CDO
@cdo_club
12.09.2025 15:20
6x Faster ML Inference: Why Online?Batch

Кейс компании Whatnot. Они столкнулись с проблемой масштабирования пакетного ML-инференса: ежедневная обработка 10+ миллиардов пар пользователь-продавец приводила к потере покрытия и значительным финансовым потерям. Для решения пробелмы они перешли на онлайн-инференс, что позволило выдавать миллионы предсказаний с задержкой менее 200 мс и надежностью >99,9%.

Основные моменты:

- Миграция хранилища признаков с DynamoDB на Redis: это дало 3-кратное снижение задержки, особенно на длинных хвостах при параллельных батчах.

- Переход с HTTP/1.1 на gRPC (HTTP/2) для передачи данных: 6,7-кратное улучшение скорости передачи больших матриц признаков.

- Tail latency — критический фактор для онлайн-инференции: даже при хорошей средней производительности, длинные хвосты задержек могут разрушить SLO.

- Применен системный подход к оптимизации: вместо догадок — нагрузочное тестирование, grid search, пошаговая изоляция узких мест.

https://medium.com/whatnot-engineering/6x-faster-ml-inference-why-online-batch-16cbf1203947
Medium
6x Faster ML Inference: Why Online?Batch
5.8x overall latency reduction while capturing millions in GMV that would have been lost to coverage gaps.
? 8
10 1.1K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram