Команда исследователей Google DeepMind представила новый отчет, в котором говорится, что их модель Gemini 2.5 стала самой безопасной из всех разработанных ранее. Важно понимать, что современные AI могут выполнять задачи, такие как суммирование электронных писем, но при этом могут сталкиваться с угрозами, когда вредоносные инструкции скрываются в получаемых данных.
Проблема непрямых инъекций запросов стала настоящим вызовом для кибербезопасности, поскольку AI иногда не может отличить искренние инструкции от манипулятивных команд. В новом отчете описывается, как команда Google DeepMind разработала стратегии, чтобы повысить устойчивость Gemini к таким атакам.
Одним из ключевых элементов стратегии безопасности является автоматизированное тестирование, при котором модель регулярно подверждается атакам для выявления уязвимостей. Используя новые методы и адаптируя подходы к безопасности, исследователи смогли значительно снизить вероятность успешных атак.
Несмотря на все предпринятые меры, ни одна модель не может быть полностью безопасной. Задача исследователей — сделать атаки гораздо сложнее и дороже для злоумышленников. Для этого необходима многослойная защита и постоянное улучшение существующих методов.
Больше информации об улучшениях в безопасности Gemini можно найти в белом документе, опубликованном исследовательской командой.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
