Скандальный сериал про «иллюзию мышления» продолжается
На сцене уже три статьи, две из которых написала не команда людей, а сами языковые модели. Разбираемся, что происходит и кто прав
.
Что уже вышло:
-
The Illusion of Thinking — оригинальная работа Apple. Авторы показали, что цепочки рассуждений плохо масштабируются: на сложных задачах не помогают, на простых даже мешают.
-
The Illusion of The Illusion of Thinking — ответ от Claude Opus. Модель нашла методологические огрехи у Apple и объявила выводы недостоверными.
-
The Illusion of The Illusion of The Illusion of Thinking — свежий обзор от Gemini 2.5 Pro. Сводит позиции воедино и показывает, где правда посередине.
Главные тезисы Gemini 2.5:
- Да, у Apple были сомнительные эксперименты, и часть критики Opus обоснована.
- Даже после исправлений при наращивании сложности одной и той же задачи качество reasoning все равно падает.
- Проблема длинных цепочек существует, но не столь катастрофична, как описывали исследователи Apple.
Что это значит для нас:
- Длинные рассуждения остаются узким местом современных LLM.
- Важно тщательно проверять методики тестирования, особенно когда модели оценивают сами себя.
- Дискуссия людей и моделей достигла третьего витка, так что, возможно, рекурсия остановится.
надеемся, авторы и нейросети наконец нашли баланс, а то можно так и утонуть в бесконечной «иллюзии иллюзий».
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram