С ростом популярности больших языковых моделей (LLMs) возникает все больше вопросов о том, насколько точно они reproduцируют факты. В ответ на эту проблему специальная команда представила FACTS Grounding — новый стандарт, который позволяет проверять, насколько правильно LLMs отвечают на вопросы, основываясь на предоставленным источникам.
Этот стандарт включает в себя 1719 примеров, ориентированных на длительные ответы, основанные на контексте документов. Примеры охватывают различные области — от финансов до медицины, что позволяет всесторонне оценить способности моделей. Публичная часть датасета теперь доступна для использования всеми желающими, что должно способствовать развитию технологий в данной сфере.
С помощью автоматизированных судей, таких как Gemini 1.5 Pro и Claude 3.5 Sonnet, оценка моделей происходит в два этапа: сначала проверяется соответствие заявке пользователя, затем достоверность ответов.
Такой подход позволяет улучшить уверенность пользователей в LLMs и снизить количество галлюцинаций — случаев, когда модели генерируют вымышленные данные. Ожидается, что FACTS Grounding станет основным инструментом в высококачественной оценке ответов LLMs, что, в свою очередь, подстегнет прогресс в области искусственного интеллекта.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
