avatar
Data, Stories and Languages
@datastorieslanguages
18.05.2026 11:52
Тестирование MiniMax M2.7 через API для рефакторинга кода, написания заметок и участия в Kaggle соревнованиях

Мне недавно дали API ключик от MiniMax M2.7 и предложили его потестировать. Я использовал его из Claude Code и потестировал на трёх реальных задачках. Те же задачи параллельно выполнял на Claude Opus 4.7 для сравнения.

Задачи: участие в активном Kaggle-соревновании (ROGII Wellbore Geology Prediction), драфтинг и аудит ML-заметок в моём Obsidian-vault dswok.com, и обновление старого PyTorch-проекта pytorch_tempest. Меня интересовало насколько хорошо работает агент M2.7 при выдаче чётких инструкций.

Результаты на всех трёх задачах получились схожие. M2.7 хорошо работает, когда constraints прописаны явно и можно верифицировать результаты. Проблемы возникают когда недостаточно детально пишешь промпты (Opus 4.7 тоже этим грешит). В Kaggle обе модели полезли использовать target в feature engineering и хардкодить тестовые айдишники, потому что в промпте не было слова про kernel-only режим. На аудите заметок M2.7 придумало несуществующие правила.

Но если давать чёткие задачи, то M2.7 получается сильно выгоднее. Я попробовал посчитать, получилось:

- ~91M токенов за пять дней Claude Code сессий
- PAYG-цена: ~$8 для M2.7 против ~$80 для Opus 4.7 на тех же задачах
- ~10x разница в стоимости, ~2x в скорости (субъективно, без бенчмарка)

Рефакторинг pytorch-tempest сработал особенно хорошо: пошаговые инструкции ("switch black + flake8 to ruff", "update pre-commit config") сработали успешно, тесты ловили регрессии. Для open-ended ML-задач всё ещё необходимо вмешательство человека. Это не проблема M2.7 как таковой — Opus в том же режиме делает те же ошибки, только реже.

Пост написан в партнёрстве с командой MiniMax. По промокоду 12% скидка на MiniMax-подписку.

Мои посты:
Personal blog
Medium
Linkedin

#ai #llm #kaggle
DSWoK — Data Science Well of Knowledge
An interconnected ML reference for practitioners: core algorithms, deep learning, NLP, metrics, system design, and interview prep.
🌚 8
🔥 4
2
1 7 881

Обсуждение 1

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram