В свежем посте на Хабре Никита Драгунов из группы «Интерпретируемый ИИ» лаборатории FusionBrain AIRI рассказывает про новый способ обучения авторегрессионных LCM — SONAR-LLM
?
Современные большие языковые модели умеют создавать связные тексты, но делают это в потокенном режиме. Следствием этого является квадратичный рост вычислительной сложности с длиной текста и проблемы с пониманием глобальной структуры документа.
Одной из попыток справиться с этим стал предложенный в прошлом году подход на основе LCM (Large Concept Models), в котором от генерации токенов модели переходят к генерации целых предложений. Несмотря на интересную идею, авторегрессионная реализация LCM показала слабые результаты.
Исследователи из группы «Интерпретируемый ИИ» придумали способ улучшить такие модели, и назвали свой подход SONAR-LLM. С помощью серии экспериментов они показали, что генерация на уровне предложений вполне способна стать альтернативой традиционным LLM.
Научная статья
| GitHub
| Хабр
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram