Команда FACTS представила новую систему для оценки способности больших языковых моделей (LLM) генерировать точные и обоснованные ответы. Эта система, известная как FACTS Grounding, поможет следить за качеством их ответов и предотвращать случаи так называемого «галлюцинирования» — генерации неверной информации.
С помощью нового лидерборда на платформе Kaggle, пользователи смогут отслеживать успехи различных LLM, которые уже были оценены с использованием FACTS Grounding. Бенчмарки охватывают широкий спектр тем: от финансов до медицины, и включают задания на обоснование, переформулирование и создание ответов на вопросы.
Для оценки используются три разных модели-судьи, что предотвращает предвзятость в оценках. Основным аспектом оценки является, чтобы ответ модели был не только фактически верным, но и полностью соответствовал запросу пользователя. Военная команда FACTS верит, что постоянное улучшение методов оценки поможет повысить надежность LLM в будущем.
Новая система предоставляет открытый доступ к частям данных, что позволяет всем желающим принимать участие в повышении фактической точности ИИ-моделей.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
