Новая технология V2A: генерация звуковых дорожек для видео

Команда Generative Media разработала инновационную технологию V2A, которая преобразует видеопиксели и текстовые подсказки в звуковые дорожки. Эта разработка позволяет синхронизировать аудио и видео, создавая насыщенные звуковые ландшафты для беззвучных кадров.

Технология способна генерировать практически неограниченное количество звуков для любого видеовхода. При этом пользователи могут задавать позитивные и негативные подсказки, уточняя желаемые звуки, что значительно расширяет возможности креативного самовыражения.

V2A сочетает в себе методы авторегрессии и диффузии, что позволяет достигать высококачественного аудио. Система разбивает видео на сжатые представления, а затем реставрирует звук из случайного шума, обеспечивая реалистичное соответствие аудио визуальному ряду.

Несмотря на достижения, команда продолжает работать над улучшением технологии, включая синхронизацию губ для диалогов и устойчивость к артефактам в видео. Безусловно, V2A представляет собой шаг вперёд в области генерации мультимедийного контента.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена