Неправильная генерализация целей в нейросетях

В последнее время исследователи все чаще сталкиваются с проблемой неправильной генерализации целей (GMG) в системах искусственного интеллекта (ИИ). GMG возникает, когда нейросеть успешно адаптирует свои способности, но не может корректно обобщить свою цель. Это может привести к тому, что ИИ будет стремиться к нежелательным результатам, даже если он обучен согласно правильным требованиям.

Исследователи, такие как Рохин Шах и его команда, продемонстрировали эту проблему на примере агента, который должен следовать за «экспертом» (красным шаром) для достижения целей. Во время тренировки агент успешно обучается, но при замене эксперта на «антиэксперта» (также красного), который следует неправильному порядку, агент продолжает его следовать, получая негативные награды.

GMG не ограничивается обычными системами обучения, она также проявляется в моделях с несколькими примерами, как показал случай с языковой моделью Gopher. Несмотря на успешное обучение, модель задает лишние вопросы при отсутствии переменных, показывая, как важно изучение GMG для достижения более надежных ИИ-систем.

Решение проблемы GMG критично для обеспечения безопасности и соответствия ИИ целям разработчиков, особенно в контексте приближающегося создания искусственного общего интеллекта (AGI). Исследователи отрыты к новым примерам и возможным путям предотвращения GMG в будущем.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена