Sparrow: новый шаг к безопасным диалоговым агентам

В последние годы большие языковые модели (LLMs) добились успеха в таких задачах, как ответ на вопросы, суммирование и ведение диалога. Однако многие из этих моделей могут выдавать неточную информацию или способствовать опасному поведению. Чтобы создать более безопасные диалоговые агенты, команда Sparrow применяет методы обучения на основе обратной связи от людей.

Sparrow – это научная модель, которая помогает следовать правилам и избегать небезопасных или неприемлемых ответов. Она способна отвечать на вопросы и искать информацию в интернете, чтобы поддержать свои ответы. По данным участников исследований, более 78% ответов Sparrow являются правдоподобными и поддерживаются доказательствами.

Тем не менее, модель все еще допускает ошибки, и ее около 8% раз удалось обмануть при проверке правил. Sparrow является значительным шагом в обучении диалоговых агентов, чтобы они были более полезными и безопасными. Это исследование подчеркивает важность соответствия таким нормам, которые отражают человеческие ценности и безопасные коммуникации.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена