Гигант технологий Google представил новые возможности генерации речи, которые делают взаимодействие с цифровыми помощниками еще более естественным. Исследователи, включая Залана Борша, Мэтта Шарифия и Марко Таглиасакки, разработали модели, способные создавать долгие диалоги с несколькими говорящими на основе текстового скрипта. Эта технология позволяет генерировать аудио за 3 секунды, при этом скорость в 40 раз быстрее реального времени.
Системы, такие как SoundStream и AudioLM, служат основой для новейших достижений в области качественной генерации аудио, обучаясь на огромных массивах данных. Отсканированные токены и усовершенствованный кодек дают возможность легко переключаться между голосами и создавать реалистичные паузы.
Будущие направления исследований включают улучшение акустического качества и интеграцию с видеотехнологиями, что откроет новые горизонты для использования в образовании и доступности контента. Интересно, что новая технология также использует водяные знаки для защиты от неправомерного использования.
Таким образом, возможности AI в создании речи обеспечивают более глубокую и насыщенную коммуникацию в нашем повседневном взаимодействии с технологиями!
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
