avatar
IT Sabbatical • Стартаперская
@it_sabat
01.02.2025 14:28
�� Внезапный финал баттла ИИ - что изменил выход o3-mini (R)

Помните, недавно делал тест между 14 моделями ИИ по построению гоночного трека?

Но с его проведения буквально за одну неделю (!) вышли новые топовые модели - "ответ на R1". Сначала Qwen-Max, а прямо вчера OpenAI раскатили o3-mini на бесплатных тарифах + функцию раздумывания, как у дипсика.

ОК, я забрал эти новые модели и сильно усложнил задачу. Теперь надо не просто сгенерировать гоночный трек, а с первой же попытки добиться, чтобы:

По этому треку двигалась машинка (сама после нажатия на кнопку START).
Если она выходит за пределы трека, то цвет машинки меняется с зеленого на красный, а ее скорость падает (аля выезд на траву).
У машинки должны быть параметры скорости разгона и торможения.

Это уже менее эмоциональный тест. Есть четкий критерий - двигается ли машинка, может ли она двигаться постоянно по треку? Результаты на приложенном скрине.

По моделям - новый ChatGPT o3-mini существует в обычном варианте и в думающем. Думающий обозначен, как (R)

РЕЗУЛЬТАТЫ ==============

⭐️ Только новенький ChatGPT o3-mini (R) смог практически во все требования! Только у него машинка двигается по треку, есть разгон и торможение, при этом выполняются требования перехода на красный за пределами трека.

⭐️ Более того, o3-mini (R) умеет при вылете за пределы трека возвращаться корректно на траекторию!

⚠️ Огрехи тоже есть: у него одного почему-то получилась не зацикленная трасса, а разомкнутая, сама трасса всегда одинаковая окружность.

�� А что DeepSeek R1? Он один смог в плавные повороты. Визуально очень интересная трасса с обработкой пересечений. Но, кажется, с этим работать дальше будет сложнее... Да и по самой трассе машинка не двигается, а уходит в сторону и за пределы экрана, как и у обычной версии o3-mini, при этом цвет на красный они оба за пределами трека не меняют.

Ну а Qwen-Max, вышедший в начале недели, в тесте провалился по всем пунктам. Никакая машинка при нажатии кнопки не появляется и ни куда не движется. Да и сама трасса не получилась у него ��‍♂️

ИТОГО ===================

�� 1 место - ChatGPT o3-mini (R) У единственной модели все работает и все понятно.

2 и 3 место - ChatGPT o3-mini и DeepSeek R1, оба что-то попытались, но отстали от лидера заметно. Впрочем, R1 снова проявил свои творческие способности, сделав красиво ��

Без места - провалился Qwen-2.5 Max, ничего путного он не сделал.

В общем, новый ChatGPT o3-mini (R) советую попробовать для сложных задач. Он доступен на бесплатном тарифе, не забудьте нажать там Reasoning.
Функция холста у OpenAI тоже очень крутая, но работает пока не стабильно при увеличении истории.

В комментах выложу еще скрин сравнения рассуждений R1 и OpenAI.

Пытаюсь в стартап: 358 дней
#тесты@it_sabat
👏 4
🔥 2
🐳 1
7 1 220

Обсуждение 7

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram