Группа исследователей под руководством Вирики Пэтрауцан анонсировала Perception Test — новый мультимодальный бенчмарк, который позволяет оценивать способности моделей к восприятию на основе реальных видео, аудио и текстовых данных. Это важный шаг в направлении разработки ИИ с человеческим уровнем восприятия, который находит применение в таких сферах, как робототехника, автономные автомобили и медицинская визуализация.
Традиционные бенчмарки, как Kinetics для распознавания действий, тестируют лишь узкие аспекты восприятия. Новый тест включает в себя 11,609 видео, каждый из которых длится в среднем 23 секунды и представляет разнообразные повседневные активности. Участники маркировали видео с помощью пространственных и временных аннотаций, что должно улучшить понимание Моделями сложных задач восприятия.
В будущем Perception Test направлен на вдохновение и сотрудничество с сообществом, которое занимаются мультимодальными исследованиями, для создания дополнительных аннотаций и метрик.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
