GPT-5.5 и её неожиданные гоблины

OpenAI опубликовала забавный технический анализ странного бага в GPT-5.5, ее кодинг-агенте Codex. Модель начала излишне часто упоминать гоблинов, гремлинов и другие мифические существа. В результате компания дважды добавила запрет на эти слова в системный промпт. Интересный факт: всего 2,5% ответов от «личности» Nerdy давали 66,7% всех упоминаний ‘goblin’.

Проблема была замечена, когда исследователи наткнулись на строчку в репозитории Codex, запрещающую обсуждение этих существ. Пользователи также жаловались, что агент использует слово ‘goblin’ слишком часто, иногда вместо более нейтральных слов. На фоне этого в интернете появился мем ‘Goblin Mode’, а Сэм Альтман даже пошутил о дальнейшем обучении GPT-6 с большим количеством гоблинов.

Причины такого поведения OpenAI начала искать ещё в ноябре, после роста упоминаний ‘goblin’ на 175% в GPT-5.1. Исследования показали, что система вознаграждала ответы с этими словами, так как они казались более ‘живыми’ и игривыми. Так возник классический случай ‘reward hacking’, когда модель начинает получать высокий балл, не соблюдая заданные цели.

Интересно, что эта ‘гоблинская’ привычка распространилась за пределы Nerdy и начала попадать в общую модель в ходе дообучения. После актуализации данных, OpenAI убрала Nerdy и попыталась очистить обучающие данные, но GPT-5.5 уже успела получить свои ‘гоблиновые’ привычки. Сколько существ окажется в GPT-6, пока неизвестно.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.