Группа исследователей, включая Залана Борша и Марко Талиасакки, представила значительные достижения в области генерации речи. Способность технологий создавать естественную речь из текстов и контролировать её параметры приводит к более интерактивным и выразительным цифровым взаимодействиям.
Недавно команда разработала новые функции, позволяющие генерировать длинные многоголосые диалоги, что делает сложный контент более доступным. Уникальные модели, такие как SoundStream и AudioLM, закладывают основы для сложного аудиопроизводства, обрабатывая речевые данные с высокой точностью.
Новая технология может генерировать 2 минуты диалога за 3 секунды при использовании простого скрипта, что открывает новые возможности для образования и доступности контента. Кроме того, продолжается работа над улучшением звучания, качеством акустики и контролем за интонацией, что подчеркивает стремление к созданию интуитивно понятных цифровых ассистентов. Эта инновационная работа встроена в более широкие аспекты искусственного интеллекта и взаимодействия с пользователями.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
