ARC Prize Foundation представил интересный анализ работы новейших моделей интеллекта от OpenAI и Anthropic на интерактивном бенчмарке ARC-AGI-3. Результаты оказались неутешительными: GPT-5.5 справилась лишь на 0,43%, а Opus 4.7 — на 0,18%, в то время как человеческие участники решают эти задачи на 100%.
Запущенный в марте 2026 года, ARC-AGI-3 предлагает множество уникальных пошаговых сценариев, где модели не получают никаких подсказок и должны самостоятельно учиться на опыте, выявляя, что есть победа и как ее достигнуть.
Грег Камрадт, президент фонда, выделил три основных паттерна провалов: 1) наблюдение за эффектом, но отсутствие стратегии; 2) проекция знакомых моделей на новые сценарии; 3) прохождение уровней с неправильными догадками, оставляющими остаточные ошибки.
Разбор также акцентирует внимание на различиях между моделями: Opus 4.7 формирует твердые, но неверные теории, тогда как GPT-5.5 генерирует множество гипотез, стараясь не зацикливаться на одной. Эти исследования важны для понимания, как будущие ИИ-системы будут сталкиваться с незнакомыми данными.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
