Взаимопонимание и выражение эмоций — основа человеческого общения. В Google активно развивают технологии для создания естественной, динамичной речи, что открывает новые возможности для взаимодействия с цифровыми помощниками и ИИ.
Недавние достижения позволили создать модели, генерирующие многоголосые диалоги с улучшенным качеством и естественностью. Эта новая технология укоротила время генерации двухминутного аудио до менее трех секунд, используя мощные чипы TPU. Инновационная структура токенов позволяет эффективно обрабатывать большую информацию, создавая аудиофайлы высокой четкости.
Обучение моделей проводилось на основе огромного количества речевых данных, что позволило им имитировать реальные разговоры, включая паузы и интонации. Кроме того, технология SynthID обеспечивает защиту от потенциального злоупотребления созданным контентом. Потенциальные применения данной технологии разнообразны — от образования до создания доступного контента.
Следите за будущими разработками: Google продолжает исследовать возможности синтеза речи в сочетании с другими медиаформатами.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
