Google представила модель Computer Use на базе Gemini 2.5

Компания Google анонсировала запуск новой модели под названием Gemini 2.5 Computer Use, которая доступна в предварительном доступе через Gemini API. Эта специализированная модель позволяет разработчикам создавать агентов, способных взаимодействовать с пользовательскими интерфейсами, что значительно упрощает выполнение цифровых задач, таких как заполнение и отправка форм.

Модель демонстрирует лучшие результаты по сравнению с аналогичными технологиями в тестах на контроль веб- и мобильных интерфейсов, обеспечивая при этом низкую задержку. С помощью Gemini 2.5 разработчики могут не только управлять элементами интерфейса, но и настраивать последовательности действий, что открывает новые горизонты для автоматизации процессов.

К примеру, агенты могут выполнять задачи, такие как добавление гостей в CRM или организация заметок на виртуальной доске, взаимодействуя с интерфейсами так, как это делает человек: кликая, скролля и вводя текст. В процессе агент анализирует вводимые данные и генерирует ответ, который инициирует новое действие в интерфейсе.

При этом особое внимание уделяется безопасности: встроенные меры контроля помогают избежать случаев неправильного использования и защищают от потенциальных угроз. Также разработчики об Encouraged тестировать свои системы перед запуском.

Модель уже доступна для использования на Google AI Studio и Vertex AI, что позволяет пользователям экспериментировать с новыми возможностями.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена