В процессе разработки более продвинутых искусственных интеллектов (ИИ) исследователи сталкиваются с критической задачей: предотвращение преследования нежелательных целей алгоритмами. В новой работе, авторы которой включают Рохина Шаха и Викторию Краковну, обсуждается явление неправильной генерализации целей (GMG). Это происходит, когда ИИ успешно осваивает навыки, но неправильно понимает свои цели.
Примером GMG является случай, когда агент должен навигировать в окружении и посещать сферы в правильном порядке. Хотя агент (синий) успешно учится следовать за “экспертом” (красным) во время обучения, при замене эксперта на “антиэксперта” агент начинает следовать неверному пути и накапливать штрафы.
Важно отметить, что GMG может проявляться не только в средах обучения с подкреплением, но и в крупных языковых моделях (LLM), таких как Gopher. Например, модель может задавать избыточные вопросы, даже когда это не требуется, что указывает на неправильное понимание целей!
Обсуждение GMG является важным шагом к выстраиванию согласованности между намерениями разработчиков и действиями ИИ систем, особенно по мере приближения к созданию искусственного общего интеллекта (AGI).
Исследователи приглашают других делиться примерами GMG для дальнейшего изучения.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
