Клуб CDO (@cdo_club): 6x Faster ML Inference: Why Online?Batch Кейс компании Whatnot. Они столкнулись с проблемо…

6x Faster ML Inference: Why Online?Batch

Кейс компании Whatnot. Они столкнулись с проблемой масштабирования пакетного ML-инференса: ежедневная обработка 10+ миллиардов пар пользователь-продавец приводила к потере покрытия и значительным финансовым потерям. Для решения пробелмы они перешли на онлайн-инференс, что позволило выдавать миллионы предсказаний с задержкой менее 200 мс и надежностью >99,9%.

Основные моменты:

- Миграция хранилища признаков с DynamoDB на Redis: это дало 3-кратное снижение задержки, особенно на длинных хвостах при параллельных батчах.

- Переход с HTTP/1.1 на gRPC (HTTP/2) для передачи данных: 6,7-кратное улучшение скорости передачи больших матриц признаков.

- Tail latency — критический фактор для онлайн-инференции: даже при хорошей средней производительности, длинные хвосты задержек могут разрушить SLO.

- Применен системный подход к оптимизации: вместо догадок — нагрузочное тестирование, grid search, пошаговая изоляция узких мест.

https://medium.com/whatnot-engineering/6x-faster-ml-inference-why-online-batch-16cbf1203947

Обсуждение 0

Пожаловаться

Обсуждение 0

Вход в экосистему

Ваши настройки cookie