Представлен новый стандарт FACTS для оценки точности LLM

Сегодня был представлен FACTS Grounding — новый комплексный стандарт, который поможет оценить, насколько точно языковые модели (LLM) основывают свои ответы на предоставленных неберущихся и избегают «галлюцинаций», т.е. создания вымышленных фактов. Это актуально, поскольку, несмотря на то, что LLM меняют наш доступ к информации, их способность генерировать фактически точные ответы остается ограниченной.

FACTS включает 1,719 примеров, каждый из которых требует от модели длинного ответа, основанного на контексте документа. Стандарт будет стимулировать развитие индустрии в области фактической точности, а результаты оценки будут доступны в виде онлайн-таблицы на Kaggle.

Модели будут оцениваться с использованием различных автоматических судей, чтобы избежать предвзятости в оценке. Важно отметить, что каждая модель не только должна давать правильные факты, но и отвечать на запрос пользователя, иначе ответ будет считаться недействительным.

С запуском FACTS Grounding открывается возможность для разработчиков LLM оценить свои модели на открытом наборе примеров и участвовать в улучшенииBenchmarks и AI-систем в целом.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена