В мире искусственного интеллекта традиционные методы тестирования уже не справляются с вызовами современных генеративных моделей. В ответ на это группа разработчиков ИИ создала MC-Bench — инновационный веб-сайт, использующий Minecraft для сравнения способностей различных моделей. Пользователи оценивают творения, созданные ИИ, и голосуют за лучшие результаты, прежде чем увидеть, какая модель стояла за ними.
По словам Ади Сингха, создателя MC-Bench, известность Minecraft позволяет широкой аудитории легко оценивать результаты, даже если они не являются геймерами. Игра выступает универсальным «языком» для оценки, позволяя отслеживать прогресс в разработке ИИ.
На данный момент в проекте участвуют восемь волонтёров-разработчиков, а такие гиганты, как Anthropic, Google и OpenAI, поддерживают использование их технологий для запуска бенчмарков.
MC-Bench помогает увидеть, как модели справляются с задачами программирования в легкодоступной форме. Хотя остаются вопросы о практической полезности этих показателей, результаты показывают интересную тенденцию: «Текущая таблица лидеров отражает мой собственный опыт использования этих моделей», — подчеркивает Сингх.
