Data, Stories and Languages (@datastorieslanguages): DeepSeek-V4: Why Million-Token Context Needs Efficient Attention, Not Just Larger Windows …

DeepSeek-V4: Why Million-Token Context Needs Efficient Attention, Not Just Larger Windows

Long-context LLM обычно дают простой рецепт для capability: закинь больше токенов в промпт и дай модели ризонить поверх них. До какого-то момента это работает, но скрывает structural bottleneck — длинное окно полезно только если модель реально может позволить себе attention поверх него во время inference, tool use и длинных reasoning-траекторий. DeepSeek-V4 смещает фокус с максимальной длины контекста на efficient long-horizon computation.

Вся архитектура построена вокруг того, чтобы сделать 1M-токеновое окно практичным.
- Hybrid attention stack: Compressed Sparse Attention (CSA) сжимает группы KV-entry и применяет top-k selection поверх сжатого representation; Heavily Compressed Attention (HCA) использует более агрессивное сжатие без sparse selection. Всё это interleaved по слоям.
- Плюс mHC интегрирован прямо в backbone, scaled MoE с 256/384 routed экспертами, Muon optimizer, FP4 (MXFP4) для экспертных весов.
- Post-training принципиально отличается от R1: вместо единой политики с GRPO тренируется N доменных специалистов (math, competitive coding, agent use, instruction following), которые сливаются через On-Policy Distillation — взвешенная сумма full-vocabulary KL-дивергенций в одну ученическую политику.

По многим метрикам DeepSeek в топе, но не везде. В основном обгоняют opensource, но закрытые модели обычно лучше. Было интересно сравнить эту модель с Kimi K2.5 - у них разный акцент: K2.5 — native multimodality + Agent Swarm, V4 — sparse attention + compositional post-training.

Paper
Project

Мои обзоры:
Personal blog
Medium
Linkedin

#paperreview

Обсуждение 2

Вход в экосистему

Ваши настройки cookie