Человеческая речь играет ключевую роль в установлении связей и обмене эмоциями. Google представил улучшенные модели генерации речи, способные создавать высококачественный и естественный аудиоконтент. Эти технологии уже внедрены в такие проекты, как Gemini Live и YouTube’s авто-дубляж, помогая пользователям легче взаимодействовать с цифровыми ассистентами.
В новых функциях теперь можно генерировать длинные многоголосые диалоги. Поддержка многоуровневых структур акустических токенов, разработанных в рамках технологий SoundStream и AudioLM, позволяет быстро создавать диалоги, достигая скорости генерации в 40 раз быстрее реального времени.
Для обучения модели использованы сотни тысяч часов речевых данных. Эта работа позволяет генерировать идеальные диалоги с естественными паузами и интонациями. В дополнение, будет добавляться технология SynthID для защиты от неправомерного использования генерации аудиоконтента.
Возможности новых технологий безграничны, и они могут существенно изменить подходы к обучению и интеллектуальному доступу. Мы с нетерпением ждем, какие достижения принесет исследование в области голосовых технологий.
*Компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.
