Inclusion Arena: Новая эра оценки ИИ-моделей

Недавно исследователи из Inclusion AI представили инновационную платформу Inclusion Arena, которая обещает изменить подход к сравнению моделей искусственного интеллекта (ИИ). Вместо традиционных бенчмарков, основанных на статических данных, Inclusion Arena фокусируется на реальных сценариях использования, подчеркивая, как пользователи взаимодействуют с моделями.

На платформе используются методы Бредли-Терри для оценки качества ответов различных ИИ. Программы, такие как Joyland и T-Box, предоставляют пользователям возможность выбирать лучшие ответы, не зная, от какой модели они исходят. Это позволяет системе учитывать предпочтения реальных пользователей и повышает точность оценок.

Исследования уже подтвердили, что одной из самых продуктивных моделей является Claude 3.7 Sonnet от Anthropic. Он выделяется среди своих конкурентов и демонстрирует, как Inclusion Arena открывает новые горизонты для институтов, стремящихся подбирать модели на основе реального опыта.

Таким образом, Inclusion Arena предоставляет более точную и актуальную информацию для предприятий, нуждающихся в выборе оптимальных решений в области ИИ.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.