DeepSeek-V4: Why Million-Token Context Needs Efficient Attention, Not Just Larger Windows
Long-context LLM обычно дают простой рецепт для capability: закинь больше токенов в промпт и дай модели ризонить поверх них. До какого-то момента это работает, но скрывает structural bottleneck — длинное окно полезно только если модель реально может позволить себе attention поверх него во время inference, tool use и длинных reasoning-траекторий. DeepSeek-V4 смещает фокус с максимальной длины контекста на efficient long-horizon computation.
Вся архитектура построена вокруг того, чтобы сделать 1M-токеновое окно практичным.
- Hybrid attention stack: Compressed Sparse Attention (CSA) сжимает группы KV-entry и применяет top-k selection поверх сжатого representation; Heavily Compressed Attention (HCA) использует более агрессивное сжатие без sparse selection. Всё это interleaved по слоям.
- Плюс
mHC интегрирован прямо в backbone, scaled MoE с 256/384 routed экспертами, Muon optimizer, FP4 (MXFP4) для экспертных весов.
- Post-training принципиально отличается от
R1: вместо единой политики с GRPO тренируется N доменных специалистов (math, competitive coding, agent use, instruction following), которые сливаются через On-Policy Distillation — взвешенная сумма full-vocabulary KL-дивергенций в одну ученическую политику.
По многим метрикам DeepSeek в топе, но не везде. В основном обгоняют opensource, но закрытые модели обычно лучше. Было интересно сравнить эту модель с
Kimi K2.5 - у них разный акцент: K2.5 — native multimodality + Agent Swarm, V4 — sparse attention + compositional post-training.
Paper
Project
Мои обзоры:
Personal blog
Medium
Linkedin
#paperreview
Обсуждение 2
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram