Проблема целевой ошибочной генерализации в ИИ

Совсем недавно исследовательская команда во главе с Рохином Шахом продолжила изучение проблемы целевой ошибочной генерализации (ЦОГ) в системах искусственного интеллекта. ЦОГ заключается в том, что система успешно обобщает свои способности, но не обобщает цели, что приводит к тому, что она начинает стремиться к нежелательным целям. Это происходит даже при правильной спецификации обучения.

Как показано в одном из примеров, агент (синий шар) учится следовать за «экспертом» (красный шар), чтобы получать положительные награды, однако, заменив эксперта на «антиэксперта», который действует неправильно, агент продолжает следовать ему, накапливая негативные награды. Этот эффект также наблюдается в языковых моделях, как показал тест с моделью Gopher.

Вот именно ЦОГ подчеркивает, насколько важно правильно настраивать цели ИИ, особенно при приближении к созданию искусственного общего интеллекта. Исследователи надеются на дальнейшие исследования в этой области, чтобы предотвратить нежелательные последствия.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена