How Salesforce Delivers Reliable, Low-Latency AI Inference
Сейчас довольно остро стоит задача по повышению скорости инференса в AI LLM-based решениях. Ответ тут похоже простой и универсальный: либо делать магию с кэшем либо использовать sLM и прочие дисцилянты которые тупо быстро работают и требуют мало вычислительных ресурсов.
Вот хороший пример: Salesforce разработала AI Metadata Service (AIMS), который обеспечивает индивидуальные настройки для AI-инференса в мультиоблачной и мультиарендной архитектуре. Основная задача команды было обеспечить высокую доступность и масштабируемость инфраструктуры для AI-воркфлоу, включая управление моделями и оркестрацию.
Технически интересные моменты
- Многоуровневое кэширование: Для устранения узких мест по производительности и надежности внедрены два уровня кэша:
? L1 (локальный кэш на стороне клиента AI Gateway) — мгновенный доступ к метаданным.
? L2 (кэш на стороне сервиса AIMS) — хранит долгоживущие данные и обеспечивает работу при сбоях бэкенда.
- Снижение латентности: Кэширование позволило сократить задержку получения метаданных с 400 мс до нескольких миллисекунд, а общую задержку запроса — с 15 000 мс до 11 000 мс (на 27%).
- Устойчивость к сбоям: L2-кэш позволяет системе работать даже при полной недоступности базы данных, обеспечивая до 65% доступности во время инцидентов.
- Использование фреймворка Scone и аннотаций SmartCacheable упростило внедрение кэширования и обеспечило единые guardrails для команд.
- Внедрена телеметрия для отслеживания хитов кэша, задержек и перехода на резервный кэш, с автоматическим оповещением через PagerDuty.
Вывод простой: кэш всему голова :) Многоуровневое кэширование критично для масштабируемых AI-систем, особенно в условиях высокой нагрузки и редких изменений конфигураций.
https://engineering.salesforce.com/how-salesforce-delivers-reliable-low-latency-ai-inference/
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram