Кучевые АйТи (@oblakoteka): Не NVIDIA единой Сегодня вместе с Владимиром Кондратьевым, PDE Облакотеки, немного расшаты…

Не NVIDIA единой

Сегодня вместе с Владимиром Кондратьевым, PDE Облакотеки, немного расшатываем культ одного вендора. Разбираемся на практике, что находится за пределами привычного стека и почему иногда стоит туда заглянуть.

Я регулярно получаю запросы, и почти каждый раз разговор начинается одинаково: «Нам нужна ВМ с картами H100, сколько стоит?». Я достаточно долго шел по пути «давайте попробуем дешевые NVIDIA вместо дорогих», пока в какой-то момент не задал себе вопросы: почему именно NVIDIA и что будет, если посмотреть шире?

Почему рынок так хочет NVIDIA?

NVIDIA запустила технологию CUDA (Compute Unified Device Architecture) еще в 2006 году.

Эта программно-аппаратная платформа для параллельных вычислений на GPU включает набор API, компилятор (nvcc), библиотеки (cuBLAS, cuDNN, cuFFT и др.) и драйверы. Проприетарная, работает только на железе NVIDIA.

В итоге видеокарта закрепилась в роли стандарта, и любая альтернатива стартует с позиции догоняющего. Дополнительно сыграл свою роль дефицит 2023-2024 годов: под срочные задачи нужно было брать то, что работает из коробки, а не то, что нужно «допиливать».

Фишка в том, что ИИ-индустрия очень быстро меняется, и сегодняшний расклад отличается не только от того, что было два-три года назад, а и от полугодовой давности.

Есть ли реальные альтернативы?

Компания AMD на рынке графических ускорителей существует давно — с 2006 года. Серверная ИИ-линейка называется Radeon Instinct: MI100 вышла в 2020 году, MI200 и MI210 в 2022, MI300X в конце 2023, сейчас на подходе MI450.

Софтверный стек ROCm (Radeon Open Compute platform) развивается по принципу open-source. Включает компилятор HIP (позволяет писать код, который собирается и под AMD, и под NVIDIA), библиотеки (rocBLAS, MIOpen, RCCL), драйверы. Работает на серверных Instinct и части потребительских Radeon.

Долгое время ROCm был заметно сырее CUDA, и именно это было главным тормозом. Ситуация принципиально изменилась с ROCm 7.0, который вышел летом 2025 года. Появились нормально работающие бэкенды под vLLM и SGLang, Другие движки — Hugging Face TGI, llama.cpp — тоже хорошо работают на ROCm.

Что получаем при сравнении?

AMD Instinct MI210 — это прямой аналог NVIDIA A100 PCIe 80GB. Обе карты одного поколения и имеют схожие характеристики. MI210 несет 64 ГБ HBM2e и 1.6 ТБ/с пропускной способности памяти, A100 идёт с 80 ГБ и 1.94 ТБ/с. В чистых FP32 и FP64 MI210 формально сильнее, но на FP16 и INT8 A100 будет впереди.

Почему стоит присмотреться к AMD?

Основной софт нормально работает. vLLM и SGLang на ROCm находятся в состоянии «включил и забыл».

Экономика. Например, MI210 на вторичном рынке сегодня обойдется в $7 тыс., A100 — это уже почти 10 тысяч. AMD был дешевле на старте (MSRP MI210 примерно вдвое ниже A100), и амортизация идет плавнее.

Весь стек AMD открытый: ROCm, драйверы, библиотеки. У NVIDIA же CUDA и ключевые компоненты проприетарные. Плюс в EULA на потребительские карты прямо прописан запрет на использование в дата-центрах, а у AMD таких ограничений нет в принципе.

Встает вопрос: если ли у вас цель получить LLM как сервис (LLM-aaS), который будет доступен через API, действительно ли важно, что там у нас под капотом? Пишите свое мнение в комментариях .

#искусственно_интеллектуально

Обсуждение 0

Вход в экосистему

Ваши настройки cookie