Запуск FACTS Benchmark Suite для оценки фактической точности LLM

Команда FACTS представила новую систему для оценки способности больших языковых моделей (LLM) генерировать точные и обоснованные ответы. Эта система, известная как FACTS Grounding, поможет следить за качеством их ответов и предотвращать случаи так называемого «галлюцинирования» — генерации неверной информации.

С помощью нового лидерборда на платформе Kaggle, пользователи смогут отслеживать успехи различных LLM, которые уже были оценены с использованием FACTS Grounding. Бенчмарки охватывают широкий спектр тем: от финансов до медицины, и включают задания на обоснование, переформулирование и создание ответов на вопросы.

Для оценки используются три разных модели-судьи, что предотвращает предвзятость в оценках. Основным аспектом оценки является, чтобы ответ модели был не только фактически верным, но и полностью соответствовал запросу пользователя. Военная команда FACTS верит, что постоянное улучшение методов оценки поможет повысить надежность LLM в будущем.

Новая система предоставляет открытый доступ к частям данных, что позволяет всем желающим принимать участие в повышении фактической точности ИИ-моделей.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена