avatar
(sci)Berloga Science
Переслано от канала
14.10.2025 10:52
мамба3

открыл папир мамба3, промотал на таблицу с метриками, как и у всех убийц трансформеров ситуация такая же - микромодель, приросты на несколько пунктов, ненасыщенный претрейн(100B токенов не очень много для 1.5b трансформера)

Переводя на человеческий - авторы пошли по классическому "давайте найдем сетап где это будет работать"

Закрыл, пошел листать имплементацию deepseek 3.2

полистать
55 6.9K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram