avatar
Клуб CDO
@cdo_club
10.09.2025 11:20
How Salesforce Delivers Reliable, Low-Latency AI Inference

Сейчас довольно остро стоит задача по повышению скорости инференса в AI LLM-based решениях. Ответ тут похоже простой и универсальный: либо делать магию с кэшем либо использовать sLM и прочие дисцилянты которые тупо быстро работают и требуют мало вычислительных ресурсов.

Вот хороший пример: Salesforce разработала AI Metadata Service (AIMS), который обеспечивает индивидуальные настройки для AI-инференса в мультиоблачной и мультиарендной архитектуре. Основная задача команды было обеспечить высокую доступность и масштабируемость инфраструктуры для AI-воркфлоу, включая управление моделями и оркестрацию.

Технически интересные моменты 

- Многоуровневое кэширование: Для устранения узких мест по производительности и надежности внедрены два уровня кэша:
? L1 (локальный кэш на стороне клиента AI Gateway) — мгновенный доступ к метаданным.
? L2 (кэш на стороне сервиса AIMS) — хранит долгоживущие данные и обеспечивает работу при сбоях бэкенда.

- Снижение латентности: Кэширование позволило сократить задержку получения метаданных с 400 мс до нескольких миллисекунд, а общую задержку запроса — с 15 000 мс до 11 000 мс (на 27%).

- Устойчивость к сбоям: L2-кэш позволяет системе работать даже при полной недоступности базы данных, обеспечивая до 65% доступности во время инцидентов.

- Использование фреймворка Scone и аннотаций SmartCacheable упростило внедрение кэширования и обеспечило единые guardrails для команд.

- Внедрена телеметрия для отслеживания хитов кэша, задержек и перехода на резервный кэш, с автоматическим оповещением через PagerDuty.

Вывод простой: кэш всему голова :) Многоуровневое кэширование критично для масштабируемых AI-систем, особенно в условиях высокой нагрузки и редких изменений конфигураций.

https://engineering.salesforce.com/how-salesforce-delivers-reliable-low-latency-ai-inference/
Salesforce Engineering Blog
How Salesforce Delivers Reliable, Low-Latency AI Inference
Learn how Salesforce designed a multi-layered caching system to eliminate a 400ms latency bottleneck and achieve sub-millisecond performance.
? 4
? 2
10 1.1K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram