Новые горизонты в генерации речи: достижения Google

Исследователи Google, включая Залана Борсоша и Марко Таглиасакки, сделали значительные шаги в области генерации речи, создавая технологии, способные генерировать естественные и динамичные голоса. Эти разработки уже интегрированы в различные продукты компании, такие как Gemini Live и YouTube, предоставляя пользователям более интуитивные и вдумчивые цифровые взаимодействия.

Одной из ключевых новинок является возможность генерации многоокончательных диалогов продолжительностью до двух минут с высочайшим качеством и естественностью. Это стало возможным благодаря новым кодекам и архитектуре Transformer, которые обеспечивают быструю обработку и высокую точность. Например, новая модель генерирует звук более чем в 40 раз быстрее реального времени!

Создание диалогов было достигнуто за счет обучения модели на сотнях тысяч часов разговорной речи, с акцентом на такие детали, как паузы и интонация. Эта технология также включает защиту от злоупотреблений через внедрение водяных знаков на сгенерированную аудиоинформацию.

Перспективы применения этой технологии огромны — от улучшения образовательного контента до повышения доступности материалов для людей с ограничениями. Мы на пороге новой эры в голосовых технологиях!

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена