Запущена новая система оценки фактической точности LLM – FACTS Grounding

В мире больших языковых моделей (LLM) недостаток точности фактической информации становится серьезной проблемой. Модели могут «галлюцинировать» ложные данные, что снижает доверие пользователей. Новая система FACTS Grounding, разработанная Google DeepMind и Google Research, призвана решить эту проблему.

С помощью FACTS Grounding осуществляется комплексная оценка способности LLM формировать ответы, основанные на предоставленных источниках информации. База данных состоит из 1719 примеров, которые требуют развернутых ответов и могут охватывать различные темы — от финансов до медицины. Публичная часть данных доступна для всех желающих оценить свои модели, тогда как закрытая часть остается недоступной, чтобы избежать манипуляций с результатами.

Система включает автоматических судей: Gemini 1.5 Pro, GPT-4o и Claude 3.5 Sonnet, которые оценивают каждую модель по фактической точности и соответствию ожиданиям пользователя. Таким образом, FACTS Grounding не только обогащает инструменты для сравнения, но и подстегивает развитие LLM, что положительно скажется на их применимости в реальных задачах.

Мы призываем сообщество ИИ активно участвовать в использовании FACTS Grounding для повышения качества своих моделей. компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена