Apple ускорила свою языковую модель в 128 раз
Команда Apple представила FS-DFM – диффузионную языковую модель, которая генерирует текст за 8 шагов вместо 1024 у классических аналогов. Это ускорение в 128 раз при сопоставимом качестве.
Чем диффузионная отличается от авторегрессионной, типа ChatGPT? Мы как-то
об этом писали. Если очень коротко, то это метод параллельной генерации текста, когда модель создаёт его не токен за токеном, а весь сразу – что гораздо быстрее. Для этого используется шум, как и в случае с картинками.
Проблема в том, что до сих пор подобные модели требовали сотен итераций, что убивало весь выигрыш в скорости. Apple
решила задачу двумя приёмами: принудительно ограничили количество шагов и заставили нейросеть делать сразу большие шаги к результату, а стабилизировали процесс за счёт использования переменной скорости.
Модель весит 170 миллионов параметров и обходит конкурентов размером 7–8 миллиардов (LLaDA-8B и Dream-7B), которые в режиме малых шагов выдают артефакты.
Подобные исследования – часть стратегии Apple по
созданию эффективных локальных моделей для своих устройств. Диффузия даёт два преимущества: параллелизм (быстрее на специализированных чипах) и контролируемость (управление генерацией через контекст, а не только промпт).
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram