�� Внезапный финал баттла ИИ - что изменил выход o3-mini (R)
Помните, недавно делал тест между 14 моделями ИИ по построению гоночного трека?
Но с его проведения буквально за одну неделю (!) вышли новые топовые модели - "ответ на R1". Сначала Qwen-Max, а прямо вчера OpenAI раскатили o3-mini на бесплатных тарифах + функцию раздумывания, как у дипсика.
ОК, я забрал эти новые модели и сильно усложнил задачу. Теперь надо не просто сгенерировать гоночный трек, а с первой же попытки добиться, чтобы:
По этому треку двигалась машинка (сама после нажатия на кнопку START).
Если она выходит за пределы трека, то цвет машинки меняется с зеленого на красный, а ее скорость падает (аля выезд на траву).
У машинки должны быть параметры скорости разгона и торможения.
Это уже менее эмоциональный тест. Есть четкий критерий - двигается ли машинка, может ли она двигаться постоянно по треку? Результаты на приложенном скрине.
По моделям - новый ChatGPT o3-mini существует в обычном варианте и в думающем. Думающий обозначен, как (R)
РЕЗУЛЬТАТЫ ==============
⭐️ Только новенький ChatGPT o3-mini (R) смог практически во все требования! Только у него машинка двигается по треку, есть разгон и торможение, при этом выполняются требования перехода на красный за пределами трека.
⭐️ Более того, o3-mini (R) умеет при вылете за пределы трека возвращаться корректно на траекторию!
⚠️ Огрехи тоже есть: у него одного почему-то получилась не зацикленная трасса, а разомкнутая, сама трасса всегда одинаковая окружность.
�� А что DeepSeek R1? Он один смог в плавные повороты. Визуально очень интересная трасса с обработкой пересечений. Но, кажется, с этим работать дальше будет сложнее... Да и по самой трассе машинка не двигается, а уходит в сторону и за пределы экрана, как и у обычной версии o3-mini, при этом цвет на красный они оба за пределами трека не меняют.
Ну а Qwen-Max, вышедший в начале недели, в тесте провалился по всем пунктам. Никакая машинка при нажатии кнопки не появляется и ни куда не движется. Да и сама трасса не получилась у него ��♂️
ИТОГО ===================
�� 1 место - ChatGPT o3-mini (R) У единственной модели все работает и все понятно.
2 и 3 место - ChatGPT o3-mini и DeepSeek R1, оба что-то попытались, но отстали от лидера заметно. Впрочем, R1 снова проявил свои творческие способности, сделав красиво ��
Без места - провалился Qwen-2.5 Max, ничего путного он не сделал.
В общем, новый ChatGPT o3-mini (R) советую попробовать для сложных задач. Он доступен на бесплатном тарифе, не забудьте нажать там Reasoning.
Функция холста у OpenAI тоже очень крутая, но работает пока не стабильно при увеличении истории.
В комментах выложу еще скрин сравнения рассуждений R1 и OpenAI.
Пытаюсь в стартап: 358 дней
#тесты@it_sabat
Обсуждение 7
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram