Data, Stories and Languages (@datastorieslanguages): Тестирование MiniMax M2.7 через API для рефакторинга кода, написания заметок и участия в K…

Тестирование MiniMax M2.7 через API для рефакторинга кода, написания заметок и участия в Kaggle соревнованиях

Мне недавно дали API ключик от MiniMax M2.7 и предложили его потестировать. Я использовал его из Claude Code и потестировал на трёх реальных задачках. Те же задачи параллельно выполнял на Claude Opus 4.7 для сравнения.

Задачи: участие в активном Kaggle-соревновании (ROGII Wellbore Geology Prediction), драфтинг и аудит ML-заметок в моём Obsidian-vault dswok.com, и обновление старого PyTorch-проекта pytorch_tempest. Меня интересовало насколько хорошо работает агент M2.7 при выдаче чётких инструкций.

Результаты на всех трёх задачах получились схожие. M2.7 хорошо работает, когда constraints прописаны явно и можно верифицировать результаты. Проблемы возникают когда недостаточно детально пишешь промпты (Opus 4.7 тоже этим грешит). В Kaggle обе модели полезли использовать target в feature engineering и хардкодить тестовые айдишники, потому что в промпте не было слова про kernel-only режим. На аудите заметок M2.7 придумало несуществующие правила.

Но если давать чёткие задачи, то M2.7 получается сильно выгоднее. Я попробовал посчитать, получилось:

- ~91M токенов за пять дней Claude Code сессий
- PAYG-цена: ~$8 для M2.7 против ~$80 для Opus 4.7 на тех же задачах
- ~10x разница в стоимости, ~2x в скорости (субъективно, без бенчмарка)

Рефакторинг pytorch-tempest сработал особенно хорошо: пошаговые инструкции ("switch black + flake8 to ruff", "update pre-commit config") сработали успешно, тесты ловили регрессии. Для open-ended ML-задач всё ещё необходимо вмешательство человека. Это не проблема M2.7 как таковой — Opus в том же режиме делает те же ошибки, только реже.

Пост написан в партнёрстве с командой MiniMax. По промокоду 12% скидка на MiniMax-подписку.

Мои посты:
Personal blog
Medium
Linkedin

#ai #llm #kaggle

Обсуждение 1

Вход в экосистему

Ваши настройки cookie