Новые бенчмарки ARC-AGI-3: Как ИИ учатся в интерактивной среде

ARC Prize Foundation опубликовал интересный разбор работы новейших моделей OpenAI и Anthropic на интерактивном бенчмарке ARC-AGI-3. В этом эксперименте модели, такие как GPT-5.5 и Opus 4.7, показали скромные результаты, набрав 0,43% и 0,18% соответственно, в то время как люди успешно справляются с этими задачами на 100%.

Бенчмарк, который был запущен в марте 2026 года, состоит из сотен уникальных пошаговых сред, созданных геймдизайнерами. Модели не получают ни инструкции, ни заданий — им необходимо самостоятельно разобраться, что нужно сделать и как.

Грег Камрадт, президент фонда, выделил три повтора типичных ошибок моделей. Первое — заметить эффект, но не вывести правило, как, например, модель понимает, что нажатие кнопки поворачивает объект, но не применяет это в стратегическом решении. Второе — натягивание известных концепций на новые задачи, что приводит к неверным выводам. Третье — успешное прохождение уровня без понимания общей сущности игры.

Особенностью является разница между моделями: Opus 4.7 цепляется за неверные теории, в то время как GPT-5.5 генерирует множество гипотез, но не удерживает их. Выводы ARC Prize показывают, что ИИ-агенты будут сталкиваться с проблемами, так как не подготавливаются к новому контенту. Это подчеркивает важность дальнейшего изучения и обновления моделей.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена