Новые методы защиты LLM от атак prompt injection: SecAlign и StruQ

Современные большие языковые модели (LLMs) становятся всё мощнее, но вместе с этим возрастает и их уязвимость к prompt injection — атакам, когда злоумышленники вставляют вредоносные инструкции в ввод данных. Чтобы бороться с этим, ученые разработали две инновационные технологии — SecAlign и StruQ. Они позволяют LLM автоматически игнорировать внедренные инструкции и защищают от более сложных атак, снижая успех их реализации практически до нуля. В основе методов лежит разделение системы на части с помощью специальных токенов и обучение модели с учетом возможных атак. Эти подходы не требуют дополнительных затрат ресурсов и сохраняют высокую полезность модели. Благодаря им, системы, такие как Google Docs или ChatGPT, смогут стать безопаснее и надежнее для пользователей, несмотря на растущие угрозы в цифровом пространстве.