Исследования в области генерации речи развиваются с поразительной скоростью, и команда из Google, в составе которой Zalán Borsos и Marco Tagliasacchi, представила новейшую технологию, позволяющую создавать длинные многоspeakerные диалоги. Это открытие значительно улучшает качество взаимодействия с цифровыми ассистентами и AI-инструментами.
Система способна генерировать двухминутные диалоги за менее чем 3 секунды, используя всего один чип TPU v5e. Она создает более 5000 акустических токенов, эффективно кодируя их в иерархической структуре, что позволяет достигнуть высокой естественности и качества звука. Также, с помощью технологии SynthID, разработчики стремятся защитить аудиоконтент от возможного злоупотребления.
Данная технология уже применяется в таких продуктах, как Project Astra и YouTube, делая контент более доступным для широкой аудитории. Ожидается, что будущее генерации речи предложит еще более интуитивное взаимодействие с технологиями на основе голоса.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
