Исследователи из Inclusion AI, связанного с Alibaba, объявили о запуске Inclusion Arena — новой платформы, ориентированной на реальную производительность моделей машинного обучения (MLM). Эта платформа призвана устранить разрыв между обещаниями ИИ и фактическим опытом пользователей. Она будет оценивать модели не только по статическим данным, но и по их применимости в реальных сценариях.
Inclusion Arena использует модель Бредли-Терри для сравнительного анализа моделей в процессе реального использования. Пользователи приложений Joyland и T-Box выбирают наиболее понравившийся ответ, не зная, какой ИИ его сгенерировал. Это позволяет более точно определять эффективность различных моделей ИИ и строить рейтинг, близкий к реальным ситуациям.
Первоначальные испытания показали, что модель Anthropic Claude 3.7 Sonnet является одной из самых эффективных. С запуском Inclusion Arena исследователи надеются расширить экосистему ИИ, интегрируя больше приложений для более точных и полного анализа.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
