OpenAI недавно провела технический разбор любопытного бага в своей модели GPT-5.5, использующейся в кодинг-агенте Codex. Оказалось, что эта версия некорректно часто вставляет в свои ответы слова, связанные с фантастическими существами, такими как гоблины, гремлины и тролли. В результате компания была вынуждена дважды изменить системный промпт, добавив прямые запреты на эти наименования.
Наиболее ярким моментом стало то, что пользовательская ‘личность’ под названием Nerdy отвечала лишь на 2,5% запросов, но именно на нее приходилось 66,7% всех упоминаний слова ‘goblin’. Исследования показали, что в 76,2% датасетов Nerdy получала высокие оценки за ответы, включающие эти слова, даже если они не были уместны.
Причина кроется в так называемом
