Новый стандарт оценки: FACTS Grounding для языковых моделей

Сегодня представляем FACTS Grounding, новый бенчмарк для оценки способности больших языковых моделей (LLM) генерировать фактически точные и качественные ответы. Несмотря на революцию в доступе к информации, LLM все еще иногда «галлюцинируют» неверные данные, что подрывает доверие пользователей.

Бенчмарк включает 1719 тщательно подготовленных примеров, каждый из которых требует детальных ответов на основе предоставленных документов. Примеры делятся на публичную и приватную части, чтобы предотвратить манипуляции с результатами. Рейтинг будет поддерживаться и обновляться по мере развития технологии.

Метод оценки основан на трех современных LLM-судьях, которые минимизируют потенциальный bias. Завершение оценки включает две фазы: проверка соответствия запросу и фактологическая точность. Таким образом, FACTS Grounding станет важным инструментом для повышения качества LLM и улучшения доверия пользователей.

К сообществу ИИ призываем активно участвовать в использовании нового бенчмарка для улучшения своих моделей.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена