Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться.
Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат:
Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.
Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?
...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.
Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.
Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека
Верить этому или нет — не знаю, но вы попробуйте:
https://dsv4.interactive.ikot.blog
Обсуждение 1
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram