Новая технология V2A: звук из видео

Команда Generative Media представила прорыв в сфере генерации мультимедиа — технологию video-to-audio (V2A), которая создает звук из видео, синхронизируя его с действиями на экране. Эта инновация позволяет генерировать насыщенные звуковые дорожки, используя пиксели видео и текстовые подсказки, например, для создания атмосферных звуковых эффектов и диалогов, соответствующих характеру и настроению видео.

V2A можно использовать с генеративными моделями видео, такими как Veo, что расширяет творческие возможности, позволяя создавать музыку и шумы, которые подчеркивают суть простых видео и классических немых фильмов. Важно, что технология позволяет экспериментировать с бесконечным количеством звуковых дорожек и управлять их качеством с помощью положительных и отрицательных подсказок.

При этом, система, основанная на диффузионной модели, не требует ручной синхронизации звука с видео, что значительно упрощает процесс. Несмотря на свои преимущества, исследователи продолжают работу над улучшением качества звука и синхронизации губ для видео, которые требуют речи.

Это открывает новые горизонты для создателей контента и ставит в центр внимания вопросы, связанные с ответственным использованием таких технологий. Мы стремимся к тому, чтобы V2A стал эффективным инструментом для креативных людей, обеспечивая безопасность создания контента, о чем свидетельствуют строгие проверки перед открытием доступа к технологии.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена