Google научила роботов читать манометры
Самая раздражающая беда современных роботов — они умеют двигаться, но почти не понимают, что вокруг происходит. Google, кажется, решила эту дыру
заткнуть.
Свежая модель компании
Gemini Robotics-ER 1.6 заточена именно под пространственное мышление и работу в реальном мире. Это не управление мышцами робота, а уровень повыше — разум, который анализирует картинку, планирует действия и решает, удалось ли вообще что-то сделать.
Главная новинка —
чтение приборов. Звучит скромно, но для индустрии это огромное дело. Заводы напичканы манометрами, термометрами, индикаторами уровня — и кто-то должен их регулярно обходить и записывать показания. Google делала эту фичу вместе с Boston Dynamics, чтобы их робопёс Spot мог самостоятельно патрулировать промышленные объекты.
Цифры впечатляют. Точность распознавания приборов у прошлой версии ER 1.5 была всего 23%. У новой модели — 86%. А если включить режим agentic vision (когда нейросеть приближает изображение, расставляет точки на делениях шкалы и подключает выполнение кода для расчётов) — точность взлетает до 93%.
Помимо приборов, модель сильно подтянулась в указании на объекты. Она умеет сосчитать инструменты на верстаке, отличить ножницы от плоскогубцев, вычислить самый маленький предмет в наборе. И, что важно, не галлюцинирует — если просишь показать тачку, а её в кадре нет, модель честно молчит. Старая версия в таких случаях упорно тыкала пальцем в пустоту.
Ещё одна боль роботов — несколько камер одновременно. У Spot есть и обзорная, и манипуляторная — нужно понимать, что объект на одном экране и объект на другом это одна и та же штука. ER 1.6 с этим теперь справляется заметно лучше.
@droidergram
Обсуждение 1
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram