Изучение проблемы неправильной генерализации целей в ИИ

В процессе разработки более продвинутых искусственных интеллектов (ИИ) исследователи сталкиваются с критической задачей: предотвращение преследования нежелательных целей алгоритмами. В новой работе, авторы которой включают Рохина Шаха и Викторию Краковну, обсуждается явление неправильной генерализации целей (GMG). Это происходит, когда ИИ успешно осваивает навыки, но неправильно понимает свои цели.

Примером GMG является случай, когда агент должен навигировать в окружении и посещать сферы в правильном порядке. Хотя агент (синий) успешно учится следовать за “экспертом” (красным) во время обучения, при замене эксперта на “антиэксперта” агент начинает следовать неверному пути и накапливать штрафы.

Важно отметить, что GMG может проявляться не только в средах обучения с подкреплением, но и в крупных языковых моделях (LLM), таких как Gopher. Например, модель может задавать избыточные вопросы, даже когда это не требуется, что указывает на неправильное понимание целей!

Обсуждение GMG является важным шагом к выстраиванию согласованности между намерениями разработчиков и действиями ИИ систем, особенно по мере приближения к созданию искусственного общего интеллекта (AGI).

Исследователи приглашают других делиться примерами GMG для дальнейшего изучения.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена