QoS InfiniBand: приоритизируем ML-обучение с точки зрения сети

Привет, это Роман Глебов. В Yandex Infrastructure я работаю в команде Yandex Global Network и занимаюсь фабриками сетей дата-центров, в том числе и нашего внутреннего облака. Они связывают наши GPU, где ML-инженеры всё активнее обучают свои модели.

Но есть проблема: взрывной рост ML увеличивает нагрузку на внутреннее облако. А мы хотим обеспечивать предсказуемые SLO для внутренних пользователей и в целом сделать ML-инфраструктуру удобной для пользователей.

Помогает в этом технология InfiniBand и концепция Quality of Service. Рассказываю о них в карточках.

А технические подробности и схемы смотрите в статье на Хабре. В ней я показал:

Зачем нужна таблица SL2VL mapping
Что будет, если мы изменим топологию сети
Как встроить QoS в существующие процессы обучения

Подписывайтесь:
emoji @Yandex4ML
emoji @YandexML
12
👍 2
🔥 2
11 4.2K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram