Недавно был представлен FACTS Grounding — новый бенчмарк для оценки способности больших языковых моделей (LLM) генерировать фактически точные ответы. Несмотря на их огромный потенциал, LLM часто «галлюцинируют», предоставляя неверную информацию, что может подрывать доверие к технологиям.
Команда FACTS разработала онлайн-лидерборд и обширный набор данных, состоящий из 1,719 примеров, которые требуют длинных и подробных ответов на основе предоставленных документов. Публичный набор из 860 примеров доступен для всех желающих, чтобы протестировать свои модели.
Процедура оценки включает два этапа: сначала проверяются ответы на соответствие запросу, затем — на фактологическую корректность. Используются три нейросети, которые автоматизируют процесс оценки, что снижает предвзятость.
Мы надеемся, что этот бенчмарк станет отправной точкой для улучшения достоверности LLM и вдохновит сообщество на дальнейшие исследования.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
