В целом постить анонсы появления разных новых моделей перестало быть особенно интересно, про это и так все напишут (тут ещё и Gemini 3.0 Pro и GPT-5.1 обещают), но удивительно, конечно, как сокращается разрыв между коммерческим close-source'ом и
китайским опен-сорсом. Кто бы мог подумать несколько лет назад, что именно Китай будет лидить это направление.
Выход новой
Kimi K2 Thinking некоторые (например,
Томас Вулф) окрестили новым DeepSeek Moment.
Модель -- MoE на 1T общих параметров и 32B активных, контекст 256k, родная INT4 (QAT) с сохранением качества; Moonshot прямо заявляет про стабильный тул?юзинг при 200–300 последовательных вызовов. Все бенчмарки для Thinking репортились в 4?битной точности.
Если наконец есть возможность локально запускать модель уровня GPT?5/Claude Sonnet 4.5/Grok?4 -- это биг?дил. В таблицах на карточке K2 Thinking она выигрывает у закрытых на части задач (HLE с инструментами, BrowseComp, некоторые кодовые бенчи), но, разумеется, кросс?сравнения между командами и сетапами всегда надо читать с оговорками, да и хорошая работа на бенчмарке ещё не гарантирует такой же успех в личной жизни -- мы все тут слышали, что датасеты нынче разбавляют. Но тем не менее.
Весит
K2 Thinking ~594?GB в формате compressed?tensors (INT4).
Оригинальная K2 (не Thinking) распространялась в FP8, поэтому чекпойнты получались заметно тяжелее.
Это всё ещё больше, чем позволяет типовое (или даже high end) домашнее железо. На практике уже есть успешные прогоны чего-то похожего:
K2 в 4?битном формате работает на двух Mac Studio с M3 Ultra по 512?GB (mlx?lm + распределение между машинами) с «жить можно» скоростью; есть и локальные отчёты про ~30 ток/с на гибриде GPU+CPU через SGLang/ktransformers.
Это пока всё варианты не для простых смертных. Два Mac Studio -- это $25-30k. NVIDIA DGX Spark за ~$4k -- не вариант, слишком мало памяти. Какая-то рабочая станция с 1-2 TB памяти + GPU могут быть вариантом, но тоже я думаю будет сильно за десятку тысяч. Реально рабочая конфигурация -- что-то вроде 8? H200/B100, в соответствии с
документацией:
“The smallest deployment unit for Kimi-K2-Thinking INT4 weights with 256k seqlen on mainstream H200 platform is a cluster with 8 GPUs with Tensor Parallel (TP)."
Там же есть любопытный вариант с KTransformers+LLaMA-Factory Fine-tuning:
“This achieves end-to-end LoRA SFT Throughput: 46.55 token/s on 2? NVIDIA 4090 + Intel 8488C with 1.97T RAM and 200G swap memory.”
В общем, пока скорее годится как потенциальная замена платных закрытых моделей внутри вашей компании, но не LLM для дома и локальных агентских экспериментов.
Может быть в этом месте более разумная альтернатива -- это какой-нибудь
MiniMax?M2, его вроде хвалят: MoE 230B total / 10B active, уже годно для Mac Studio M3 Ultra и с натяжкой для DGX Spark.
В любом случае, интересная движуха и огромный прогресс за несколько лет.
Обсуждение 6
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram