24.10.2025 09:00
Павел Михайлик — стабильный поставщик отличного матана для линкмитапов. В этот раз перед ним стояла задача исследовать возможные пути оптимизации сети для ML-кластера, потому что слишком много там всего нового и наверняка есть места, куда можно применить свой напильник.
Спойлер — мест нашлось предостаточно.

https://youtu.be/xKwMIJVdVnU

На случай если вы забыли, где же можно воочию увидеть подобные роскошества и пообщаться с живыми спецами — ближайший линкмитап случится в зимнем Новосибирске. https://linkmeetup.ru/
YouTube
Инфраструктура ML кластера - всегда есть место для напильника. Павел Михайлик
Тема ML/AI становится массовой, и из ниши единичных гиперскейлеров уходит к новым участникам. При этом, одновременно проявляется целый ряд особенностей: Относительно малые в привычном понимании размеры кластеров Новые возможности Ethernet vs Infiniband позволяют строить вариативно Отсутствие у новых игроков долговременного опыта построения и эксплуатации в отличие от гиперскейлеров Итак, мы построили кластер, мы добились работоспособности инфраструктуры, настроили ROCEv2, DCQCN и прочие страшные слова, — «работает –не трогай….». А если все же копнуть чуть глубже? Почему все же стоит оптимизировать сетевую инфраструктуру и к каким результатам это может привести, - подходы и примеры.
11 72 7K

Обсуждение 11

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram