Yandex for ML (@yandexforml): 🧑‍🏫 QoS InfiniBand: приоритизируем ML-обучение с точки зрения сети Привет, это Роман Глеб…

QoS InfiniBand: приоритизируем ML-обучение с точки зрения сети

Привет, это Роман Глебов. В Yandex Infrastructure я работаю в команде Yandex Global Network и занимаюсь фабриками сетей дата-центров, в том числе и нашего внутреннего облака. Они связывают наши GPU, где ML-инженеры всё активнее обучают свои модели.

Но есть проблема: взрывной рост ML увеличивает нагрузку на внутреннее облако. А мы хотим обеспечивать предсказуемые SLO для внутренних пользователей и в целом сделать ML-инфраструктуру удобной для пользователей.

Помогает в этом технология InfiniBand и концепция Quality of Service. Рассказываю о них в карточках.

А технические подробности и схемы смотрите в статье на Хабре. В ней я показал:

Зачем нужна таблица SL2VL mapping
Что будет, если мы изменим топологию сети
Как встроить QoS в существующие процессы обучения

Подписывайтесь:
@Yandex4ML
@YandexML

Обсуждение 0

Вход в экосистему

Ваши настройки cookie