Исследователи представили новый Perception Test — эталон для оценки мультимодальных систем, использующий реальные видеозаписи, аудио и текстовые данные. В отличие от существующих оценок, которые фокусируются на узких аспектах восприятия, этот тест разработан для комплексной оценки способностей моделей воспринимать мир.
Эталон включает в себя 11,609 видео с заданиями, основывающимися на реальных действиях и играх, а события представлены с пространственными и временными аннотациями. Задачи требуют от моделей таких навыков, как отслеживание объектов и ответ на вопросы о видео.
Данный прогрессивный подход позволит улучшить стандартные методы обучения и сравнения моделей. Исследователи отметили, что глобальное сотрудничество поможет создать более разнообразные аннотации и задачи в будущем.
Для связи и участия в исследовании можно написать на perception-test@google.com.
*Компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.
