Исследователь информационной безопасности Рон Стоунер провел эксперимент, в результате которого за всего лишь $12 и 20 минут смог заставить передовые языковые модели (LLM) с веб-поиском выдавать ложную информацию о чемпионате по карточной игре 6 Nimmt!. Его разбор был опубликован 24 апреля, и в нем он объяснил, как простая правка в Wikipedia пробила retrieval-слой моделей.
Стоунер выбрал игру 6 Nimmt!, по которой официального чемпионата данных нет. Он создал домен 6nimmt.com, разместил на нем пресс-релиз о «победе в Мюнхене в 2025 году» и добавил ссылку на сайт в Wikipedia. Модели LLM, использующие retrieval, считали информацию, поступающую из такого кругового цитирования, за независимый источник.
Стоунер выделил три слоя уязвимости: доверие к результатам веб-поиска, влияние Wikipedia на обучающие модели и уязвимость инструментов, использующих источники данных. Его эксперимент продемонстрировал, что LLM может выдавать ложные факты, основываясь на дублирующей информации, что подчеркивает необходимость контроля за данными в моделях ИИ.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
