В Китае сделали мозг

Точнее, придумали новую архитектуру, которая очень старается повторить его работу

Китайская академия наук выпустила SpikingBrain 1.0 – языковую модель, которую обучили на местных GPU стартапа MetaX и которая, по заявлениям разработчиков, работает в сто раз быстрее обычных LLM.

Модель назвали «мозгоподобной», потому что архитектура имитирует избирательную активацию нейронов: вместо обработки всего текста сразу система фокусируется на ближайшем контексте, как человеческий мозг в разговоре. Так разработчики пытались сократить количество нужных для работы модели вычислений и увеличить контекст.

Правда, заявленное стократное ускорение относится к очень специфическому сценарию – обработке промптов длиной в миллионы токенов. На обычных задачах выигрыш скромнее и измеряется десятками процентов.

Качество модели оценили по внутренним тестам: версия на 7 миллиардов параметров показала 65,8 балла по MMLU, версия на 76 миллиардов – 73,6. Цифры сопоставимы с открытыми моделями вроде Llama. Семимиллиардная модель выложена открыто.

Исследователи в репозитории признаются, что «мозгоподобность» модели пока условна. Спайковые нейронные сети остаются недостижимой целью, а рабочий продукт – это гибрид линейного внимания, микс экспертов и классических трансформеров. Но даже эмуляция поведения спайковой сети позволила увеличить скорость работы модели и снизить энергопотребление.
? 4
? 3
? 1
4 254

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram