Google анонсировала модель Computer Use, доступную в предварительном режиме через API Gemini. Эта специализированная модель, основанная на возможностях Gemini 2.5 Pro, предназначена для создания агентов, способных взаимодействовать с пользовательскими интерфейсами. Новая модель значительно превосходит конкурентов по показателям управления веб- и мобильными интерфейсами, демонстрируя низкую задержку, что критически важно для выполнения задач, таких как заполнение форм и навигация по страницам.
Операции в модели реализованы через новый инструмент computer_use в API Gemini, и данный процесс осуществляется в цикле: вводятся запрос, скриншот интерфейса, и история действий. Модель обрабатывает эти данные и генерирует ответ, который может включать запрос подтверждения для потенциально рискованных действий. Это соответствует текущим требованиям безопасности, встроенным в модель.
Вы можете ознакомиться с демонстрациями и примерами работы модели уже сейчас на платформах Google AI Studio и Vertex AI.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
