ИИ не могут в часы со стрелками. Опять

Помните, как мы писали, что ИИ не умеют читать время с часов со стрелками? Так вот, ИИ даже не способен сделать нормальный циферблат.

В недавно запущенном бенчмарке AI World Clocks 9 разных нейросетей разных поколений пытаются справиться с задачей сделать адекватно работающие часы, которые показывают правильное время. Каждую минуту им приходится делать это заново. Спойлер: справляются единицы.

Модели от OpenAI (GPT-3.5, 4o и 5) принципиально не вывозят задачу. Причем прогресс крайне незначительный — если в самой ранней версии часто даже стрелки не работали, то в более поздних они начали вертеться. Правда, часто находятся совсем не там, где должны быть.

Такие популярные модели, как Grok и Gemini 2.5, также не радуют: наибольшие проблемы у них возникают при размещении цифр на циферблате — они их разбрасывают в абсолютно разные места каждый раз.

Относительно неплохо справляется Deepseek V3.1. 30-40% собранных им часов функционируют корректно. Другая китайская нейросеть, Qwen 2.5, тест полностью провалила.

Единственная модель, которая, по нашим наблюдениям, справлялся регулярно (80-90%) — это малопопулярная Kimi K2. Правда, и она изредка чуть-чуть косячит с расположением цифр на циферблате, но без драматических провалов?

СофтТех
24 3.6K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram