avatar
Блуждающий нерв
@dtulinov
09.02.2023 16:19
Интригующее от MIT & Google Research: массивные модели трансформеры, похожие на LLMs, содержат в скрытых слоях другие модели, как бы меньшие версии самих себя. И обучают их. Только недавно увидел, и это крайне любопытно в контексте пространства состояний психики, множественных личностей, скрытых состояний мозга и т.п.

Среди авторов препринта Андреас из MIT CSAIL, о котором я уже упоминал. Он копает в верном направлении, надо бы присмотреться. [кстати, есть видео-обзор на эту работу]
MIT News
Solving a machine-learning mystery
MIT researchers have explained how large language models like GPT-3 are able to learn new tasks without updating their parameters, despite not being trained to perform those tasks. They found that these large language models write smaller linear models inside their hidden layers, which the large models can train to complete a new task using simple learning algorithms.
3 127 5.3K

Обсуждение 3

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram