avatar
IT Sabbatical • Стартаперская
@it_sabat
18.02.2025 15:28
Пока пытался проверить новый Grok3 от Маска, нашел ошибку в ответах демо-задания олимпиады

Но не с помощью Grok. Итак, мини-тестик ИИ в олимпиадной математике средних классов на фоне выхода нового Grock3.

Закинул последнее задание с олимпиады по математике "Высшая проба" для 7 класса из демо-варианта.

Задача 7.6. (20 баллов)
Столбцы белой клетчатой таблицы 11 × 11 пронумерованы слева направо числами от 1 до 11. Найдите количество способов закрасить в этой таблице 66 клеток так, чтобы выполнялись следующие условия:
• в одном столбце закрашена 1 нижняя клетка, ещё в одном — 2 нижние клетки, ещё в одном — 3 нижние клетки, …, ещё в одном — 11 нижних клеток;
• ровно в одном столбце закрашенных клеток больше, чем его номер.
__________
Вместе с решением есть здес
ь

Сами составители предлагают в решении такой ответ:
(2^1 − 1) + (2^2 − 1) + … + (2^10 − 1) = 2^1 + 2^2 + … + 2^10 − 10 = 2^11 − 11

или 2037

GROK 3 ��‍♂️
Использовал модель early-grok-3 c lmareana.ai
Разочарован. Грок устроил сущий кошмар.

Он бесконечно что-то там считал. Сделал овер 50 шагов! На большее меня просто не хватило.
В комментах я покажу, как это выглядело

QWEN2.5-MAX ��‍♂️
Выдал ответ 11*10 = 110. При "правильном" 2037
Спасибо, что быстро.

DEEPSEEK R1
The server is busy
The server is busy
The server is busy
...
Пришлось запускать R1 на Perplexity. Долго рассуждал. Со второго раза решил вдруг написать код на питоне (!), потом с третьего раз выдал неверный ответ:
45⋅10! , или 163 296 000

GIGACHAT ��
Как всегда, спасибо, что живой.
Ответ неверный, но быстрый
11×10!=11×3628800 = 39 948 000

CHATGPT o3-mini (R)
Результат на приложенном скрине. Он не только пошел по правильному пути, решил все быстро, но и, кажется, нашел ошибку в ответе демо-варианта.
2^11 - 12 = 2036
против 2037 у составителей.

Когда я ему дал ответ, он настоял на своем (несколько раз) и объяснил, почему его ответ верный.
Проверил вычисления, вроде он прав, составители действительно забыли вычесть еще единицу. Если что, там все сводится к сумме членов геометрической прогрессии.

ВЫВОДЫ:

��Грок 3 вовсе не плох. Пока на других задачах тестировал, пришел к выводу, что он ворвался минимум в топ-5 LLM. Но это никакая не революция. Просто Маск обеспечил пока себе место в топах.

��OpenAI держат марку. Красавчики. Смогли только они

��Наш кит R1 не смог, но мы все равно его любим и даже прощаем бесконечные server is busy. Он опенсорсный, умеет работать целиком в оперативке без квантизации, и так забавно рассуждает.

��А кожаным все сложнее. Кажется, ИИ уже может проверять за нами. В олимпиадах (особенно в дистанционных этапах) перекос ожидаю в сторону геометрических задач, так как они сложнее пока поддаются ИИ.

Ну и посмотрите в комментах на портянку от грока

@it_sabat
👍 5
3
🌭 1
11 5 301

Обсуждение 11

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram