Представлен новый стандарт FACTS Grounding для оценки фактической точности LLM

Команда FACTS представила новый инструмент (FACTS Grounding), который поможет исследовать, насколько точно большие языковые модели (LLM) отвечают на запросы, основываясь на предоставленных источниках. Часто LLM могут выдавать неверные сведения, что снижает доверие к их ответам и ограничивает практическое применение. Новый стандарт учитывает 1719 примеров, требующих от моделей написания длинных ответов на основе контекста документа.

Запущенный лидерборд на Kaggle будет отображать эффективность различных LLM в реальном времени. Например, новая модель Gemini 3 Pro уже показала высокий результат в 68.8% Accuracy, продемонстрировав значительное улучшение по сравнению с предыдущими версиями. Стандартизированный подход позволит исследователям и разработчикам делать свои модели более точными и надежными, открывая новые возможности для работы с информацией.

Мы призываем исследовательское сообщество активно участвовать в этом проекте и оценивать свои модели на открытом наборе примеров для дальнейшего усовершенствования технологий LLM.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена