Новый эталон для оценки мультимодальных систем на основе реальных видеоданных

Исследователи представили новый Perception Test — эталон для оценки мультимодальных систем, использующий реальные видеозаписи, аудио и текстовые данные. В отличие от существующих оценок, которые фокусируются на узких аспектах восприятия, этот тест разработан для комплексной оценки способностей моделей воспринимать мир.

Эталон включает в себя 11,609 видео с заданиями, основывающимися на реальных действиях и играх, а события представлены с пространственными и временными аннотациями. Задачи требуют от моделей таких навыков, как отслеживание объектов и ответ на вопросы о видео.

Данный прогрессивный подход позволит улучшить стандартные методы обучения и сравнения моделей. Исследователи отметили, что глобальное сотрудничество поможет создать более разнообразные аннотации и задачи в будущем.

Для связи и участия в исследовании можно написать на perception-test@google.com.

*Компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.