avatar
Data, Stories and Languages
@datastorieslanguages
18.05.2026 16:52
Тестирование MiniMax M2.7 через API для рефакторинга кода, написания заметок и участия в Kaggle соревнованиях

Мне недавно дали API ключик от MiniMax M2.7 и предложили его потестировать. Я использовал его из Claude Code и потестировал на трёх реальных задачках. Те же задачи параллельно выполнял на Claude Opus 4.7 для сравнения.

Задачи: участие в активном Kaggle-соревновании (ROGII Wellbore Geology Prediction), драфтинг и аудит ML-заметок в моём Obsidian-vault dswok.com, и обновление старого PyTorch-проекта pytorch_tempest. Меня интересовало насколько хорошо работает агент M2.7 при выдаче чётких инструкций.

Результаты на всех трёх задачах получились схожие. M2.7 хорошо работает, когда constraints прописаны явно и можно верифицировать результаты. Проблемы возникают когда недостаточно детально пишешь промпты (Opus 4.7 тоже этим грешит). В Kaggle обе модели полезли использовать target в feature engineering и хардкодить тестовые айдишники, потому что в промпте не было слова про kernel-only режим. На аудите заметок M2.7 придумало несуществующие правила.

Но если давать чёткие задачи, то M2.7 получается сильно выгоднее. Я попробовал посчитать, получилось:

- ~91M токенов за пять дней Claude Code сессий
- PAYG-цена: ~$8 для M2.7 против ~$80 для Opus 4.7 на тех же задачах
- ~10x разница в стоимости, ~2x в скорости (субъективно, без бенчмарка)

Рефакторинг pytorch-tempest сработал особенно хорошо: пошаговые инструкции ("switch black + flake8 to ruff", "update pre-commit config") сработали успешно, тесты ловили регрессии. Для open-ended ML-задач всё ещё необходимо вмешательство человека. Это не проблема M2.7 как таковой — Opus в том же режиме делает те же ошибки, только реже.

Пост написан в партнёрстве с командой MiniMax. По промокоду 12% скидка на MiniMax-подписку.

Мои посты:
Personal blog
Medium
Linkedin

#ai #llm #kaggle
DSWoK — Data Science Well of Knowledge
An interconnected ML reference for practitioners: core algorithms, deep learning, NLP, metrics, system design, and interview prep.
🌚 7
🔥 3
2
1 1 377
avatar
Data, Stories and Languages
Переслано от канала
11.05.2026 22:44
Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться.

Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.

Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?

...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.

Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.

Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека Верить этому или нет — не знаю, но вы попробуйте:

https://dsv4.interactive.ikot.blog
🔥 20
👍 6
1
1 37 785
avatar
Data, Stories and Languages
@datastorieslanguages
07.05.2026 22:44
​​The Pulse: Did capacity shortages turn Anthropic hostile to devs?

https://newsletter.pragmaticengineer.com/p/the-pulse-did-capacity-shortages

> Meta forcefully assigns engineers to data labelling ahead of job cuts. In several teams, 20-40% of engineers are given menial, data labelling work. Could that actually boost people’s job security – for now?

Я не могу ничего подтвердить или опровергнуть, но со следующего понедельника (11.05) я начинаю работать в другой организации, инфу получил сегодня
😱 13
🤝 1
1 24 1.6K
avatar
Data, Stories and Languages
@datastorieslanguages
06.05.2026 11:56
MiniMax M2.7 - как использовать?

Я получил ключик с подпиской на MiniMax M2.7 на 1 месяц. Попробовал использовать её в claude code несколько часов для нового соревнования на каггле - в целом работает.

На чём посоветуете потестировать эту модель и как сравнивать с другими? :)
🔥 5
🐳 2
5 1 1K
avatar
Data, Stories and Languages
@datastorieslanguages
02.05.2026 15:22
How We Built an AI Second Brain for 60K Knowledge Workers

https://medium.com/@AnalyticsAtMeta/how-we-built-an-ai-second-brain-for-60k-knowledge-workers-78c507dd795b

Официальный блогпост от меты о том, как second brain используется в компании. Типа агент собирает всю релевантную информацию, компилирует, потом это проще читать, проще итерироваться, проще агентам использовать её.

Про полезность этого... так себе. Я веду дневные заметки о том, что делаю + заметки по проектам. Из любопытства попросил LLM проанализировать то, что у меня есть и сравнить с second brain - получил ответ, что у меня итак норм, на 90% покрывает.
В итоге я это использую чисто для того, чтобы агенты имели информацию в удобной для себя структуре. Я даже не открываю эти заметки - они чисто для агентов. :)

#ai
Medium
How We Built an AI Second Brain for 60K Knowledge Workers
Author: Analytics at Meta
👍 4
4 20 1.7K
avatar
Data, Stories and Languages
@datastorieslanguages
30.04.2026 20:52
Heroes of might and magic: Olden Era

Я редко пишу про игры, но сегодня вышла новая игра серии Heroes of Might and Magic, правда в Early Access.

https://store.steampowered.com/app/3105440/Heroes_of_Might_and_Magic_Olden_Era/

Я играл в демку и мне понравилось, этакая помесь третьих и пятых героев получилась. В разработке поучаствовал сам Jon Van Caneghem - создатель оригинальных героев.

Рекомендую!
Steampowered
Heroes of Might and Magic: Olden Era on Steam
Heroes of Might and Magic: Olden Era is the official prequel hailing back to the origins of the genre-defining, critically acclaimed series of turn-based strategy games. Raise grand armies and wield devastating spells to overcome your foes in both solo and multiplayer.
9
🔥 2
12 1.3K
avatar
Data, Stories and Languages
@datastorieslanguages
30.04.2026 12:50
Where the Goblins Came From

OpenAI опубликовали постмортем про странный артефакт в GPT-5.1: после релиза в ноябре 2025 пользователи начали замечать, что модель подозрительно часто тащит в метафоры гоблинов, гремлинов, троллей, огров, енотов и голубей. Команда полезла разбираться, откуда эти существа лезут в продакшен.

Корень оказался в обучении personality customization, конкретно Nerdy-режима. Reward-сигнал для этой персоны систематически чуть выше оценивал ответы с creature-метафорами, и модель это подцепила. Дальше — классическая проблема RL: даже если reward применялся только под условным Nerdy-флагом, выученные паттерны не остаются строго scoped к тому условию, которое их породило. Особенно если эти аутпуты потом протекают в SFT-данные или preference-датасеты на следующих итерациях обучения.

Оказалось:
- Nerdy-персона - 2.5% всех ChatGPT-ответов, но 66.7% всех упоминаний "goblin"
- Reward-сигнал давал positive uplift на creature-слова в 76.2% датасетов
- Quick-fix в проде - system prompt с явным "Never talk about goblins". Это как раз и заметили в интернете

Кейс хорош тем, что показывает потенциальную проблему: гоблины видны невооружённым взглядом и это смешно, а вот менее заметные смещения (в оценках вероятностей, рекомендациях, тоне ответов на чувствительные вопросы) ловить намного сложнее, и они там почти наверняка сидят.

Читать эту статью было интересно :)

OpenAI blog post
OpenAI
Where the goblins came from
How goblin outputs spread in AI models: timeline, root cause, and fixes behind personality-driven quirks in GPT-5 behavior.
😁 10
5
👍 2
22 1.4K
avatar
Data, Stories and Languages
@datastorieslanguages
29.04.2026 11:44
Google Developer Expert: Kaggle -> PyTorch

Прошлым летом я писал, что стал GDE @ Kaggle. Прошёл почти год... и за это время почти ничего не произошло.

Летом 2025 были какие-то актвивности по Kaggle, в основном касающиеся benchmarks, но потом совсем заглохло. И вот недавно нам сказали, что категорию каггла упраздняют и предложили поискать другие варианты. Видимо Google так и не понял, что делать с Kaggle. Насколько я понимаю, они пивотят платформу с соревнований на AI Agent benchmarking или что-то типа того.

Самое близкое, что было для меня - AI: PyTorch. Я написал им краткое описание своих активностей, потом было "собеседование" на 15 минут - и меня приняли в эту категорию. Из интересного, что мне рассказали: будут рассказывать как тренировать PyTorch модели на TPU без XLA. Буду рассказывать про инсайты, когда они будут :)

#career
Telegram
Data, Stories and Languages
​​Google Developer Expert @ Kaggle У Google есть инициатива Google Developer Expert - это люди, которые хорошо знают какие-то технологии гугла и имеют публичные активности по этой теме. Где-то год-полтора назад появилась новая категория - Kaggle. Туда набирают "по знакомству" :) то есть обращаются к известным людям в community и предлагают присоединиться после одного общения (так называемый product interview). В первый год набирали людей медленно, сейчас вроде как более активно. Я согласился присоединиться, но плюшки не очень понятные, но всё же интересные - кредиты в Google Cloud, что-то ещё по мелочи, присоединение к коммьюнити, иногда возможность где-то выступить. Но вчера получил то, чем можно привлечь любого айтишника - мерч! #datascience
👍 9
🔥 8
🥴 1
2 8 1K
avatar
Data, Stories and Languages
@datastorieslanguages
25.04.2026 16:08
ceo cancels BI tooling, replaces it with AI, breaks everything

"""so i watched this happen with a client a coupla months ago. they had their dashboards in metabase, he cancelled > handed the team claude > "dashboards are a waste and just go and ask ai". as you can guess he then called me saying he thinks he broke sth.

sales vp was pulling numbers and surprise surprise they didnt match with finance. obvi, there were a couple different definitions for "active customer" too. claude (with all my love to the tool) was hallucinating retention figures because the underlying tables hadn't been cleaned since 2022. cherry on top data team spent their days explaining why the AI was wrong instead of actually building anything"""

https://www.reddit.com/r/analytics/comments/1sqwb5l/ceo_cancels_bi_tooling_replaces_it_with_ai_breaks/?utm_source=substack&utm_medium=email
Reddit
From the analytics community on Reddit
Explore this post and more from the analytics community
😁 7
3 14 1.2K
avatar
Data, Stories and Languages
@datastorieslanguages
25.04.2026 01:19
​​DeepSeek-V4: Why Million-Token Context Needs Efficient Attention, Not Just Larger Windows

Long-context LLM обычно дают простой рецепт для capability: закинь больше токенов в промпт и дай модели ризонить поверх них. До какого-то момента это работает, но скрывает structural bottleneck — длинное окно полезно только если модель реально может позволить себе attention поверх него во время inference, tool use и длинных reasoning-траекторий. DeepSeek-V4 смещает фокус с максимальной длины контекста на efficient long-horizon computation.

Вся архитектура построена вокруг того, чтобы сделать 1M-токеновое окно практичным.
- Hybrid attention stack: Compressed Sparse Attention (CSA) сжимает группы KV-entry и применяет top-k selection поверх сжатого representation; Heavily Compressed Attention (HCA) использует более агрессивное сжатие без sparse selection. Всё это interleaved по слоям.
- Плюс mHC интегрирован прямо в backbone, scaled MoE с 256/384 routed экспертами, Muon optimizer, FP4 (MXFP4) для экспертных весов.
- Post-training принципиально отличается от R1: вместо единой политики с GRPO тренируется N доменных специалистов (math, competitive coding, agent use, instruction following), которые сливаются через On-Policy Distillation — взвешенная сумма full-vocabulary KL-дивергенций в одну ученическую политику.

По многим метрикам DeepSeek в топе, но не везде. В основном обгоняют opensource, но закрытые модели обычно лучше. Было интересно сравнить эту модель с Kimi K2.5 - у них разный акцент: K2.5 — native multimodality + Agent Swarm, V4 — sparse attention + compositional post-training.

Paper
Project

Мои обзоры:
Personal blog
Medium
Linkedin

#paperreview
🔥 7
2 9 1.1K
avatar
Data, Stories and Languages
@datastorieslanguages
24.04.2026 00:11
​​An update on recent Claude Code quality reports

Недавно я писал про проблемы с лимитами Claude

Anthropic признали проблему и выкатили пост с объяснениями. Действительно, были проблемы и с reasoning, и с cache.

https://www.anthropic.com/engineering/april-23-postmortem

Они сделали reset лимитов.

#ai
👍 10
💊 2
4 17 997
avatar
Data, Stories and Languages
@datastorieslanguages
23.04.2026 14:37
​​Dogfooding... brick

Я уже рассказывал, что в моей компании можно заниматься dogfooding - тестирование software/hardware до публичного запуска.

В рамках dogfooding можно зарабатывать баллы - за выполнение заданий, репорт багов, участие в ивентах. Несколько месяцев назад я достиг предпоследний ранг и за него дают особую плюшку.

Как известно, при тестировании железа, оно иногда может ломаться. На английском это звучит как "I bricked my device". Так что может быть лучше, чем наградить таких людей... кирпичом?

Сегодня я получил свой кирпич, надпись на нём была придумана мной :)

Теперь у моих аргументов на работе будет особый вес!
🔥 8
😁 6
1
5 2 1.1K
avatar
Data, Stories and Languages
@datastorieslanguages
22.04.2026 00:38
Grammarly уже не тот

Я годами использовал Grammarly для улучшения своих текстов. Но сколько-то месяцев назад они стали внедрять AI и давать больше советов. И эти советы часто, скажем так, сомнительные.

Решил я ради любопытства проверить текст своих заметок на следы ai-generated text.
Вот, например мне заявили, что "and Regularization" - это очень подозрительно, гораздо лучше писать "as well as Regularization". "input features" - тоже плохо, лучше "input attributes". Из самого смешного - предложили заменить "Bayesian optimization" на "Bayesian tuning".

И как им после такого доверять в проверке качества текстов?
😁 19
👍 4
3 4 1.2K
avatar
Data, Stories and Languages
@datastorieslanguages
21.04.2026 23:02
5-Day AI Agents: Intensive Vibe Coding Course With Google

Новая итерация курса про AI от Kaggle!

https://www.kaggle.com/competitions/5-day-ai-agents-intensive-vibecoding-course-with-google/overview

Теперь будем учиться использовать агентов, инструменты, скилы и память, проверки качества и безопасности, а также деплоить то, что навайбкодили

June 15 - 19, 2026

#ai
Kaggle
5-Day AI Agents: Intensive Vibe Coding Course With Google
June 15 - 19, 2026
🔥 8
1
👍 1
1 45 1.2K
avatar
Data, Stories and Languages
@datastorieslanguages
21.04.2026 21:43
Meta to start capturing employee mouse movements, keystrokes for AI training data

https://www.reuters.com/sustainability/boards-policy-regulation/meta-start-capturing-employee-mouse-movements-keystrokes-ai-training-data-2026-04-21/

"Meta is installing new tracking software on U.S.-based employees’ computers to capture ​mouse movements, clicks and keystrokes for use in training its ‌artificial-intelligence models"

А как ваши компании собирают данные для моделей? :)

Когда-то говорили, что такой трекинг для проверки работы - зашквар и только убргие компании такое делают.

А теперь вот фаанг до этого скатился. Как бы теперь все компании не начали это делать.
Reuters
Exclusive: Meta to start capturing employee mouse movements, keystrokes for AI training data
Meta is installing new tracking software on U.S.-based employees’ computers to capture mouse movements, clicks and ​keystrokes for use in training its artificial intelligence models, part of a broad initiative to build AI agents that can perform work tasks autonomously, the company told staffers in ‌internal memos seen by Reuters.
😱 6
😁 3
😢 1
4 28 1.5K
avatar
Data, Stories and Languages
Переслано от канала
21.04.2026 01:02
Сходил на конференцию AI Conf доклады хорошие, и все про агентов. Про классический ML уже и не рассказывают

1. Про публикации докладов индустрии на A конференциях*: удивительно, но среднее время публикации 9 месяцев. Тк можно несколько раз проходить ревью на разных конференциях и последовательно улучшать работу. Все давно используют LLM для кода, ревью, обзорных статей и т. д. - то, что еще в Q3 прошлого года не работало. Но вот придумать что-то новое у LLM пока не получается: пробовали оставлять их подумать на пару недель - дорого и неэффективно, но, думаю, это вопрос времени. Интересная гипотеза: в будущем к статье будет прилагаться zip-архив экспериментов, которые AI сможет детально проверить, и вся ценность будет заключаться в идее.

2. Сходил на два воркшопа. По построению search-агентов (ReAct с бесплатными API Groq + Tavily для поиска, который дает 1000 бесплатных запросов в месяц). И еще один как строить мониторинг с langfuse.

3. Если в прошлом году еще спорили, чем отличается LLM-решение от агентов, то теперь придумали Agent Harness (например, Deep Agents - там сразу и память, и скиллы вместо тулзов). Работает достойно, но создание скилла на основе готового минус 2 млн токенов, а один вызов еще минус 100к. Понятно, что надо смотреть по метрикам, но токенов кушает достойно. В качестве альтернативы Langfuse посмотрели Arize Phoenix - удобно, что он сам всё оборачивает и так же можно смотреть трейсы.

4. Интересный доклад про голосовых агентов, в том числе для телефонии. Voice-to-voice модели - это удобно, но для них пока нет туллинга и контекстом сложно управлять. Из-за этого всё еще работает связка Speech-to-Text -> LLM -> Text-to-Speech. Но приходится добавлять модели, которые детекят, когда человек перебивает бота. Из-за пауз моделька может начать анализировать ответ раньше времени, а значит, нужно сегментировать речь - а это еще дополнительные модели и рост latency. Плюс нужно нормализовать текст после Whisper, который, если слышит музыку, любит галлюцинировать (условно, пишет «Транскрибировано Димон»). Сложный домен. А если сервишь сам, то приходится выбирать между Ray Serve (vLLM) и Triton Inference Server - и там всё очень серьезно.

5. Создание контента. Был блогер с YouTube-канала, который отдал на откуп LLM почти всё: от обложки и сценария до самого контента. Оставил только человека в кадре, который читает текст. Теперь сразу понятно, какой контент был создан именно так (спойлер: там, где на обложке капс и слишком кричащий заголовок).

P.S. Еда по талонам, а там - котлетка с пюрешкой. Как так-то?
👍 7
1
🔥 1
2 8 841