Data, Stories and Languages
Контакт с автором https://t.me/Erlemar
Персональный сайт: https://andlukyane.com/
Рекламу не публикую
Забустить канал можно тут: https://t.me/boost/datastorieslanguages
Аналитика аудитории
Последний пост
Читать ленту →
Тестирование MiniMax M2.7 через API для рефакторинга кода, написания заметок и участия в Kaggle соревнованиях
Мне недавно дали API ключик от MiniMax M2.7 и предложили его потестировать. Я использовал его из Claude Code и потестировал на трёх реальных задачках. Те же задачи параллельно выполнял на Claude Opus 4.7 для сравнения.
Задачи: участие в активном Kaggle-соревновании (ROGII Wellbore Geology Prediction), драфтинг и аудит ML-заметок в моём Obsidian-vault dswok.com, и обновление старого PyTorch-проекта pytorch_tempest. Меня интересовало насколько хорошо работает агент M2.7 при выдаче чётких инструкций.
Результаты на всех трёх задачах получились схожие. M2.7 хорошо работает, когда constraints прописаны явно и можно верифицировать результаты. Проблемы возникают когда недостаточно детально пишешь промпты (Opus 4.7 тоже этим грешит). В Kaggle обе модели полезли использовать target в feature engineering и хардкодить тестовые айдишники, потому что в промпте не было слова про kernel-only режим. На аудите заметок M2.7 придумало несуществующие правила.
Но если давать чёткие задачи, то M2.7 получается сильно выгоднее. Я попробовал посчитать, получилось:
- ~91M токенов за пять дней Claude Code сессий
- PAYG-цена: ~$8 для M2.7 против ~$80 для Opus 4.7 на тех же задачах
- ~10x разница в стоимости, ~2x в скорости (субъективно, без бенчмарка)
Рефакторинг pytorch-tempest сработал особенно хорошо: пошаговые инструкции ("switch black + flake8 to ruff", "update pre-commit config") сработали успешно, тесты ловили регрессии. Для open-ended ML-задач всё ещё необходимо вмешательство человека. Это не проблема M2.7 как таковой — Opus в том же режиме делает те же ошибки, только реже.
Пост написан в партнёрстве с командой MiniMax. По промокоду 12% скидка на MiniMax-подписку.
Мои посты:
Personal blog
Medium
Linkedin
#ai #llm #kaggle