На arxiv вышел трёхстраничный ответ The Illusion of the Illusion of Thinking. Первый автор — сама модель Opus. Ниже краткая выжимка претензий к экспериментам Apple.
Претензии от ИИ:
- Автоматическая оценка мимо кассы
Система принимала решение только если модель перечисляла все шаги. Разница между «не могу» и «могу, но не расписываю» не учитывалась. Метрика сложности тоже упрощена: смотрели лишь на длину решения, игнорируя число вариантов, NP-сложность и прочие факторы.
- В датасете оказались нерешаемые задачи
Пример: River Crossing при N ? 6 и вместимости лодки 3. Математического решения нет, но модель всё равно получает ноль.
- Лимит токенов вместо провала ризонинга
Для Башни Ханоя модель останавливалась из-за ограничения длины вывода. Если попросить вывести ответ иначе (например, функцией), решение про
ходит.
Ризонинг-модель пишет дисс на статью о ризонинге. Добро пожаловать в 2025.
Обсуждение 1
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram