Запуск нового бенчмарка FACTS для оценки LLM

В мире искусственного интеллекта большие языковые модели (LLM) становятся всё более популярными, однако их точность в передаче фактической информации остаётся ненадёжной. Об этом стало известно с запуском нового бенчмарка FACTS Grounding, который помогает оценивать, насколько хорошо LLM основывают свои ответы на источниках. Этот инструмент, разработанный Google DeepMind и Google Research, преследует цель снизить так называемые «галлюцинации» — случаи, когда модели выдают неверные данные.

Бенчмарк включает в себя 1719 примеров запросов, разделённых на публичный и приватный наборы. Публичный набор уже доступен для оценки, что позволяет исследователям протестировать свои модели на предмет достоверности и проработки ответов.

Новая система оценивания предполагает использование трёх различных судейских моделей, включая Gemini 1.5 Pro и GPT-4o, что помогает минимизировать системные предвзятости. Эти модели проверяют, соответствуют ли ответы требованиям задания и полностью ли основаны на предоставленных данных.

Запуск FACTS Grounding также сопровождается созданием лидерборда на платформе Kaggle, что поможет отслеживать достижения в области фактической точности LLM. Это важный шаг к улучшению доверия пользователей к AI-технологиям, которые должны быть не только полезными, но и надёжными.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена