Искусственный интеллект создает звук на основе видео

Технологии генерации видео продолжают стремительно развиваться, однако многие из них до сих пор могут создавать только беззвучные ролики. Новая разработка под названием Video-to-Audio (V2A) предлагает решение этой проблемы, сочетая видео пиксели с текстовыми подсказками для генерации богатых звуковых дорожек, идеально синхронизированных с видеорядом.

V2A может работать с современными моделями генерации видео, такими как Veo, чтобы создавать захватывающие музыкальные фоны, реалистичные звуковые эффекты или диалоги, соответствующие видеокontentu. Важно отметить, что данная система позволяет генерировать определенное количество звуковых дорожек для любого видео в режиме реального времени, что открывает новые творческие перспективы.

Для достижения удачного результата V2A использует объемные данные не только по видео, но и текстовые аннотации, обучаясь соотносить звуки с визуальными сценами. Тем не менее, существует ряд ограничений, особенно в отношении синхронизации губ в видеороликах с речью, что является предметом дальнейших исследований.

Это исследование подчеркивает возможности применения искусственного интеллекта в креативной индустрии и подтверждает стремление обеспечить безопасное использование этой технологии за счет внедрения инструментов для водяных знаков всех генерируемых материалов.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена