Droider (@droidergram): 🤖 Google научила роботов читать манометры Самая раздражающая беда современных роботов

Google научила роботов читать манометры

Самая раздражающая беда современных роботов — они умеют двигаться, но почти не понимают, что вокруг происходит. Google, кажется, решила эту дыру заткнуть.

Свежая модель компании Gemini Robotics-ER 1.6 заточена именно под пространственное мышление и работу в реальном мире. Это не управление мышцами робота, а уровень повыше — разум, который анализирует картинку, планирует действия и решает, удалось ли вообще что-то сделать.

Главная новинка — чтение приборов. Звучит скромно, но для индустрии это огромное дело. Заводы напичканы манометрами, термометрами, индикаторами уровня — и кто-то должен их регулярно обходить и записывать показания. Google делала эту фичу вместе с Boston Dynamics, чтобы их робопёс Spot мог самостоятельно патрулировать промышленные объекты.

Цифры впечатляют. Точность распознавания приборов у прошлой версии ER 1.5 была всего 23%. У новой модели — 86%. А если включить режим agentic vision (когда нейросеть приближает изображение, расставляет точки на делениях шкалы и подключает выполнение кода для расчётов) — точность взлетает до 93%.

Помимо приборов, модель сильно подтянулась в указании на объекты. Она умеет сосчитать инструменты на верстаке, отличить ножницы от плоскогубцев, вычислить самый маленький предмет в наборе. И, что важно, не галлюцинирует — если просишь показать тачку, а её в кадре нет, модель честно молчит. Старая версия в таких случаях упорно тыкала пальцем в пустоту.

Ещё одна боль роботов — несколько камер одновременно. У Spot есть и обзорная, и манипуляторная — нужно понимать, что объект на одном экране и объект на другом это одна и та же штука. ER 1.6 с этим теперь справляется заметно лучше.

@droidergram

Обсуждение 1

Droider

Пожаловаться

Обсуждение 1

Droider

Вход в экосистему

Ваши настройки cookie