Yandex for ML
@yandexforml
QoS InfiniBand: приоритизируем ML-обучение с точки зрения сети
Привет, это Роман Глебов. В Yandex Infrastructure я работаю в команде Yandex Global Network и занимаюсь фабриками сетей дата-центров, в том числе и нашего внутреннего облака. Они связывают наши GPU, где ML-инженеры всё активнее обучают свои модели.
Но есть проблема: взрывной рост ML увеличивает нагрузку на внутреннее облако. А мы хотим обеспечивать предсказуемые SLO для внутренних пользователей и в целом сделать ML-инфраструктуру удобной для пользователей.
Помогает в этом технология InfiniBand и концепция Quality of Service. Рассказываю о них в карточках.
А технические подробности и схемы смотрите в статье на Хабре. В ней я показал:
Зачем нужна таблица SL2VL mapping
Что будет, если мы изменим топологию сети
Как встроить QoS в существующие процессы обучения
Подписывайтесь:
@Yandex4ML
@YandexML
Привет, это Роман Глебов. В Yandex Infrastructure я работаю в команде Yandex Global Network и занимаюсь фабриками сетей дата-центров, в том числе и нашего внутреннего облака. Они связывают наши GPU, где ML-инженеры всё активнее обучают свои модели.
Но есть проблема: взрывной рост ML увеличивает нагрузку на внутреннее облако. А мы хотим обеспечивать предсказуемые SLO для внутренних пользователей и в целом сделать ML-инфраструктуру удобной для пользователей.
Помогает в этом технология InfiniBand и концепция Quality of Service. Рассказываю о них в карточках.
А технические подробности и схемы смотрите в статье на Хабре. В ней я показал:
Зачем нужна таблица SL2VL mapping
Что будет, если мы изменим топологию сети
Как встроить QoS в существующие процессы обучения
Подписывайтесь:
@Yandex4ML
@YandexML
❤ 12
👍 2
🔥 2
11 4.2K
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram