Институт AIRI (@airi_research_institute): В свежем посте на Хабре Никита Драгунов из группы «Интерпретируемый ИИ» лаборатории Fusion…

В свежем посте на Хабре Никита Драгунов из группы «Интерпретируемый ИИ» лаборатории FusionBrain AIRI рассказывает про новый способ обучения авторегрессионных LCM — SONAR-LLM

?

Современные большие языковые модели умеют создавать связные тексты, но делают это в потокенном режиме. Следствием этого является квадратичный рост вычислительной сложности с длиной текста и проблемы с пониманием глобальной структуры документа.

Одной из попыток справиться с этим стал предложенный в прошлом году подход на основе LCM (Large Concept Models), в котором от генерации токенов модели переходят к генерации целых предложений. Несмотря на интересную идею, авторегрессионная реализация LCM показала слабые результаты.

Исследователи из группы «Интерпретируемый ИИ» придумали способ улучшить такие модели, и назвали свой подход SONAR-LLM. С помощью серии экспериментов они показали, что генерация на уровне предложений вполне способна стать альтернативой традиционным LLM.

Научная статья | GitHub | Хабр

Обсуждение 0

Пожаловаться

Обсуждение 0

Вход в экосистему

Ваши настройки cookie