В последние годы команда Google, включая исследователей Залана Боршоса, Мэтта Шарифиа и Марко Таглиасаччи, достигла значительных успехов в области генерации речи. Эти усовершенствования имеют ключевое значение для создания более естественного взаимодействия между пользователями и технологией, ведь именно речь объединяет людей, позволяя обмениваться эмоциями и идеями.
Недавно компания разработала новые функциональные возможности, которые позволяют генерировать многочасовые диалоги с участием нескольких спикеров, значительно упрощая понимание сложного контента. Исследования сделали возможным создание длинных сегментов диалога, поддерживаемых современными архитектурами, такими как SoundStorm и AudioLM, которые эффективно справляются с генерацией звука.
Новейшая технология позволяет генерировать до двух минут высококачественной речи всего за три секунды, что в 40 раз быстрее реального времени. С использованием иерархических токенов, разработанных для более эффективного сжатия аудио, качество остается на высшем уровне.
Эти достижения открывают широкие горизонты для применения в обучении и доступности контента, многогранно меняя подход к голосовым технологиям. В этом контексте Google актуализирует свои принципы ответственного ИИ, внедряя технологии для защиты от потенциального злоупотребления.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
