Minecraft как Бенчмарк для ИИ: Новая Эра Тестирования Моделей - Новости нейросетей и искусственного интеллекта (ИИ) со всего мира на русском языке

В мире искусственного интеллекта традиционные методы тестирования уже не справляются с вызовами современных генеративных моделей. В ответ на это группа разработчиков ИИ создала MC-Bench — инновационный веб-сайт, использующий Minecraft для сравнения способностей различных моделей. Пользователи оценивают творения, созданные ИИ, и голосуют за лучшие результаты, прежде чем увидеть, какая модель стояла за ними.

По словам Ади Сингха, создателя MC-Bench, известность Minecraft позволяет широкой аудитории легко оценивать результаты, даже если они не являются геймерами. Игра выступает универсальным «языком» для оценки, позволяя отслеживать прогресс в разработке ИИ.

На данный момент в проекте участвуют восемь волонтёров-разработчиков, а такие гиганты, как Anthropic, Google и OpenAI, поддерживают использование их технологий для запуска бенчмарков.

MC-Bench помогает увидеть, как модели справляются с задачами программирования в легкодоступной форме. Хотя остаются вопросы о практической полезности этих показателей, результаты показывают интересную тенденцию: «Текущая таблица лидеров отражает мой собственный опыт использования этих моделей», — подчеркивает Сингх.