Исследователи Google, включая Залана Борсоса и Матта Шарифи, представили впечатляющие достижения в области генерации речи, которые значительно улучшают взаимодействие людей с цифровыми помощниками. С новыми технологиями теперь возможно создавать двухминутные многоязычные диалоги с естественным звучанием. Эти инновации используются в различных продуктах Google, таких как Gemini Live и Project Astra.
Новая модель генерации речи способна обрабатывать скрипты диалогов и жесты перехода между спикерами, демонстрируя невероятную скорость обработки данных — более 40 раз быстрее реального времени. Основой этого успеха стали модели, такие как SoundStream и AudioLM, которые работают с иерархическими токенами для детального представления аудио информации.
Для достижения высокой акустической четкости исследователи обучили модель на основе сотен тысяч часов речи, включающих реалистичные разговорные паузы и эмоции. Этот подход позволяет генерировать диалоги в студийном качестве, что открывает новые возможности для образовательных и развлекательных приложений. Исследователи также активно работают над улучшением управляемости и качества звука, комбинируя эти достижения с другими медиаформатами.
Результаты исследования показывают, что будущее генерации речи выглядит многообещающе, и это лишь начало. Возможности интеграции таких технологий с продукцией Gemini впечатляют.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
