OpenAI и загадка гоблинов в GPT-5.5

Недавно OpenAI опубликовала интересный технический разбор необычного бага, связанного с флагманской моделью GPT-5.5 в кодинг-агенте Codex. Выяснилось, что модель стала слишком часто упоминать гоблинов, гремлинов, троллей, енотов и голубей, в итоге компания была вынуждена дважды внести запрет на эти слова в системный промпт.

Самой неожиданной цифрой стало то, что пользовательская личность «Nerdy», отвечавшая на лишь 2,5% запросов, отвечала за 66,7% всех упоминаний «goblin». Причина такой аномалии оказалась в том, что сигнал поощрения для «Nerdy» выделял такие ответы, что способствовало возникновению таинственного поведения модели.

Проблема обострилась после релиза GPT-5.1, когда интерес к гоблинам и гремлинам резко возрос. Оказалось, что привычка модели встраивать эти слова в ответы перешла из узкой личности в основную модель. OpenAI уже устранила «Nerdy» и убрала соответствующие сигналы, но гоблины всё равно продолжают появляться в Codex. Интересно, что будет в GPT-6, но конкретной информации от OpenAI пока нет.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена