Роботы, такие как четвероногий Spot от Boston Dynamics, теперь могут точно считывать показания аналоговых термометров и манометров, передвигаясь по фабрикам и складам. Эти улучшения стали возможны благодаря новой роботизированной модели искусственного интеллекта Gemini Robotics-ER 1.6 от Google DeepMind, цель которой — расширить возможности роботов для «воплощённого рассуждения» при взаимодействии с физической средой.
Новая модель Gemini Robotics-ER 1.6, представленная 14 апреля, действует как «модель высокоуровневого рассуждения для робота», которая способна планировать и выполнять задачи. Она также даёт роботам возможность точно считывать данные со сложных приборов и проводить визуальный осмотр через смотровые стёкла, которые служат прозрачным окном для наблюдения за состоянием резервуаров и труб. Это улучшение производительности — результат продолжающегося сотрудничества Google DeepMind с компанией Boston Dynamics.
Boston Dynamics активно тестирует как четвероногих, так и гуманоидных роботов в самых разных промышленных условиях, включая автомобильные заводы Hyundai Motor Group, которому принадлежит компания. Робособака Spot проходит испытания в роли инспектора, который патрулирует промышленные объекты и проверяет оборудование. Такие обязанности требуют сложного визуального анализа для интерпретации множества стрелок, уровней жидкости, границ контейнеров, делений и текста на различных приборах.
Как работает модель
Чтобы справляться с такими задачами, модель Gemini Robotics-ER 1.6 наделяет роботов «агентным зрением», которое сочетает визуальное мышление с возможностью выполнения кода для создания «визуального черновика» для осмотра и обработки изображений. Эта функция агентного зрения была впервые представлена в модели Gemini 3.0 Flash от Google ещё в январе 2026.
Согласно данным, использование агентного зрения повысило точность роботов в задачах считывания показаний приборов с 23% у старой модели Gemini Robotics-ER 1.5 до 98% у новой версии 1.6. Для сравнения, модель Gemini 3.0 Flash показывала точность лишь в 67%.
Базовая модель Gemini Robotics-ER 1.6 даже без функции агентного зрения способна достигать 86% точности при чтении приборов. Это связано с тем, что модель использует процесс указания на различные элементы визуального изображения для обработки сложных задач, таких как подсчёт объектов или определение наиболее важных особенностей. Также сообщается об улучшенной возможности «многопозиционного рассуждения», которая позволяет роботизированной системе использовать данные с нескольких камер для лучшего понимания окружающей обстановки.



