Компания Google анонсировала запуск новой модели под названием Gemini 2.5 Computer Use, которая доступна в предварительном доступе через Gemini API. Эта специализированная модель позволяет разработчикам создавать агентов, способных взаимодействовать с пользовательскими интерфейсами, что значительно упрощает выполнение цифровых задач, таких как заполнение и отправка форм.
Модель демонстрирует лучшие результаты по сравнению с аналогичными технологиями в тестах на контроль веб- и мобильных интерфейсов, обеспечивая при этом низкую задержку. С помощью Gemini 2.5 разработчики могут не только управлять элементами интерфейса, но и настраивать последовательности действий, что открывает новые горизонты для автоматизации процессов.
К примеру, агенты могут выполнять задачи, такие как добавление гостей в CRM или организация заметок на виртуальной доске, взаимодействуя с интерфейсами так, как это делает человек: кликая, скролля и вводя текст. В процессе агент анализирует вводимые данные и генерирует ответ, который инициирует новое действие в интерфейсе.
При этом особое внимание уделяется безопасности: встроенные меры контроля помогают избежать случаев неправильного использования и защищают от потенциальных угроз. Также разработчики об Encouraged тестировать свои системы перед запуском.
Модель уже доступна для использования на Google AI Studio и Vertex AI, что позволяет пользователям экспериментировать с новыми возможностями.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
