ARC Prize Foundation опубликовал подробный анализ взаимодействия новейших моделей OpenAI и Anthropic с интерактивным бенчмарком ARC-AGI-3. Результаты оказались разочаровывающими: GPT-5.5 набрала лишь 0,43%, а Opus 4.7 — 0,18%, в то время как люди успешно справляются с этими задачами на 100%.
Бенчмарк, запущенный в марте 2026 года, включает сотни тщательно разработанных игровых сред, где модели должны самостоятельно понимать правила и цели. Анализ, проведенный президентом фонда Грегом Камрадтом, выявил три основные схемы, по которым модели терпели неудачу.
- Видит эффект, не выводит правило: модели замечают эффекты взаимодействий, но не формируют стратегий действий.
- Натягивает знакомое поверх нового: модели используют данные из известных игр, хотя логика новых сред отличается.
- Прошел уровень — не понял игру: ошибки, сделанные на одном уровне, закрепляются и мешают дальнейшему продвижению.
Интересно, что Opus 4.7 склонен к созданию неверных, но уверенных теорий, тогда как GPT-5.5 выдвигает множество гипотез, но не осмысливает их в стратегию. Выводы фонда показывают, что реальные ИИ-агенты столкнутся с аналогичными проблемами в будущем, что подчеркивает важность дальнейшего анализа свежих моделей.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
