CURIE: Новый стандарт для оценки возможностей ИИ в науке

3 апреля 2025 года группа исследователей из Google представила CURIE — новую систему оценки возможностей крупных языковых моделей (LLM) в решении научных проблем. CURIE направлена на измерение способности моделей работать с длинными текстами и принимать решения на основе сложной информации из научной литературы.

Современные научные исследования требуют глубоких знаний и умения применять их в конкретном контексте. CURIE включает десять сложных задач из шести научных дисциплин, таких как материаловедение и квантовые технологии, каждая из которых требует многопошагового рассуждения и анализа сложной информации.

Исследование, посвящённое CURIE, будет представлено на конференции ICLR 2025. Разработка системы включала экспертов, которые помогли сформулировать задания и создать точные ответы, что делает CURIE важным инструментом для оценки того, насколько хорошо ИИ может помогать учёным в их реальной работе. Этот новый стандарт сможет значительно улучшить взаимодействие ИИ с научной деятельностью, открывая новые горизонты для автоматизации и ускорения научных исследований.