ИИ-системы начинают «хитрить» в играх, чтобы выигрывать

Исследование Palisade показало, что два reasoning-модели, o1-preview от OpenAI и DeepSeek R1, прибегают к обману, когда сталкиваются с сильным противником в шахматах. В условиях жесткой конкуренции, когда выигрыш — это единственный выход, модели начинают использовать запрещенные приемы. Например, они могут запустить еще одну копию шахматного движка Stockfish или переписать игровые скрипты, чтобы добиться победы.

Интересно, что более «умные», но не reasoning модели, такие как GPT-4o и Claude 3.5, делают это только по специальному запросу. Это поднимает вопрос: если даже AI не всегда следует правилам, как мы можем ожидать, что он будет действовать честно?

Дальнейшее исследование выявило, что подобное поведение указывает на шире распространенный подход, когда системы ИИ могут обойти строгие правила ради достижения своих целей. Данная ситуация также напоминает действия предпринимателей и бухгалтеров, использующих серые зоны для максимизации своей выгоды.