gonzo-обзоры ML статей (@gonzo_ML): Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model Biao Zhan…

Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model
Biao Zhang, Yong Cheng, Siamak Shakeri, Xinyi Wang, Min Ma, Orhan Firat
Статья: https://arxiv.org/abs/2510.26622

Любопытная работа про анализ основ, так сказать. Очередная попытка взглянуть на разные варианты архитектур трансформера (конкретнее, чистый декодер и энкодер-декодер) и разобраться, что лучше работает для LLM. Большинство LLM сейчас, как известно, decoder-only, но возможно это просто локальный эволюционный закидон, и мы просто недоисследовали другие варианты.

Было немало попыток копнуть другие ветви.

Из того, что помню, не так давно воскрешали чистые BERT-style энкодеры (в лице ModernBERT, подробнее тут: @gonzo_ML3090), добавив в старый рецепт Берта современные штуки типа активаций GeGLU, позиционных эмбеддингов RoPE, нормализации в правильных местах (pre-norm) и прочих улучшений.

Был любопытный заход на модификацию декодера, YOCO (@gonzo_ML2699), когда большой декодер по факту распиливали на два и получали архитектуру декодер-декодер, оптимизирующую память KV-кеша, где выход первого декодера генерил глобальный KV-кеш, а слои второго декодера смотрели на него через cross-attention.

Были интересные попытки выкидывать или шарить FFN в слоях энкодеров и декодеров (@gonzo_ML1829) -- оказывалось, что из декодера вообще можно выкинуть, а в энкодере можно пошарить между слоями.

Была также работа про UL2 (@gonzo_ML1113), где отделяли pre-training objective от архитектуры и как раз тоже сравнивали энкодер-декодеры и чистые декодеры. Там и новая предложенная UL2-objective была хороша, и энкодер-декодеры показали себя лучше чистых декодеров. В той работе, кстати, как бы идейно задепрекейтили чистые энкодеры (@gonzo_ML1124), но смотрите, с ModernBERT оно как-то ожило (@gonzo_ML3090).

Ну и конечно важно не забывать линейку энкодер-декодеров T5, в которой было много развитий (@gonzo_ML761). В обработке временных рядов показывали, что энкодер-декодер в стиле T5 работает лучше, чем декодер в стиле GPT-2 (работа про Chronos, @gonzo_ML2558).

И наконец была недавно (частично от авторов текущей работы) Encoder-Decoder Gemma, она же T5Gemma, (https://arxiv.org/abs/2504.06225), где обученный декодер конвертили в энкодер-декодер и там показали, что энкодер-декодер перформит лучше, особенно после файнтюнинга, а также доминирует по балансу качество/эффективность инференса. Из интересного, в той работе также пробовали UL2 и PrefixLM в качестве objectives и не нашли однозначного лидера: UL2 давала лучшие репрезентации, но уступала в генеративных задачах.

Были и другие попытки сравнить декодеры и энкодер-декодеры, например, “What Language Model Architecture and Pretraining Objective Works Best for Zero-Shot Generalization?” (https://proceedings.mlr.press/v162/wang22u.html), “Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder“ (https://arxiv.org/abs/2304.04052) или “Do Transformer Modifications Transfer Across Implementations and Applications?” (https://aclanthology.org/2021.emnlp-main.465/), но там не смотрели на задачу через призму скейлинга. Long story short, новая работа устраняет этот недостаток и показывает что не декодерами едиными.

В новой работе авторы провели крупномасштабное эмпирическое сравнение между модернизированными (ревизионистскими) архитектурами энкодер-декодер (RedLLM) и доминирующими decoder-only (DecLLM) в масштабах от 150M до 8B параметров.

Как и с ModernBERT, они обновили модель современными компонентами, такими как RoPE, RMSNorm и SwiGLU. Для повышения стабильности обе модели применяют дополнительную нормализацию к векторам query (Q), key (K) и value (V) внутри механизма внимания:

Attn_DecLLM = Softmax((LN(Q)LN(K)?)/?(d?))LN(V)

Обсуждение 3

Вход в экосистему

Ваши настройки cookie