Компания OpenAI анонсировала PaperBench, новый бенчмарк, который позволит проверить, насколько хорошо ИИ может воспроизводить результаты передовых исследований в области искусственного интеллекта. Этот тест направлен на определение способности ИИ понимать научные статьи, писать код и запускать его, чтобы подтвердить результаты исследования.
В PaperBench используется 20 лучших статей Международной конференции по машинному обучению (ICML) 2024, охватывающих 12 различных тем. Каждая статья включает 8316 индивидуально оценимых заданий. Для объективной оценки разработана система Rubric, которая разбивает каждую задачу на более мелкие подзадачи с четкими критериями оценки, составленными совместно с авторами статей.
Интересно, что лучшая модель, протестированная на PaperBench, Claude 3.5 Sonnet от Anthropic, достигла 21% уровня воспроизводства, в то время как средний балл для исследователей с докторской степенью в области машинного обучения составил 41.4%. Это показывает, что ИИ пока далеки от человеческой экспертизы.
Исходный код PaperBench доступен на GitHub, также присутствует облегченное его множество для широкой аудитории. Не упустите возможность увидеть, как ИИ развивается и стремится к согласованию с научной практикой.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
