Google DeepMind представил новый белый документ, в котором рассказывается о том, как был усилен уровень безопасности их модели Gemini 2.5. Эта модель нацелена на то, чтобы стать более защищенной от атак, использующих так называемую ‘непрямую инъекцию команд’. Эти атаки представляют серьезную угрозу, так как они могут вводить искажающие инструкции в данные, с которыми работает ИИ, что может привести к утечке личной информации.
Исследуя эти уязвимости, команда безопасности Google разработала стратегию, включающую автоматическую проверку системы (ART), чтобы выявлять потенциальные слабости, протестировав несколько методов защиты. Важным шагом стало так называемое ‘укрепление модели’, при котором модель обучалась игнорировать злонамеренные команды и следовать первоначальному запросу пользователя.
Таким образом, мировременная безопастность ИИ формируется благодаря многослойной защите и постоянной адаптации к новым угрозам. Невзирая на все достижения, важно помнить, что ни одна модель не может быть полностью защищена от атак. Поэтому работа по повышению уровня безопасности продолжается.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
