ARC Prize Foundation опубликовал разбор, в котором оценивались последние модели OpenAI и Anthropic на интерактивном бенчмарке ARC-AGI-3, запущенном в марте 2026 года. Модели показали скромные результаты: GPT-5.5 набрала 0,43%, а Opus 4.7 — 0,18%, тогда как люди выполняли эти задачи на 100%.
В ходе анализа было выделено три ключевых паттерна провалов:
- Видит эффект, не выводит правило: например, модель осознаёт, что нажатие кнопки поворачивает объект, но не формирует стратегию для выполнения задачи.
- Натягивает знакомое поверх нового: GPT-5.5 пыталась применять тактики из популярных игр, таких как Tetris, к совершенно другим игровым средам.
- Прошел уровень — не понял игру: модель может пройти уровень с ошибочными предположениями, которые затем усугубляют её понимание.
Разница в подходах моделей также интересна: Opus 4.7 замирает на неверных теориях, а GPT-5.5 генерирует множество идей, не доводя их до реализации. Вывод фонда подчёркивает, что ИИ-агенты всегда сталкиваются с незнакомыми сценариями, и их обучение должно продолжаться для повышения эффективности.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
