Синтетическая речь уже давно стала частью нашего повседневного общения, но для разработчиков создание естественно звучащих голосов часто связано с высокими затратами на облачные API и использованием неестественных голосов. Mistral AI с этим не согласен и представляет Voxtral TTS — мощную модель текст-в-речь с открытыми весами, которую можно запустить на собственном оборудовании.
Voxtral TTS, выпущенная 26 марта 2026 года, может генерировать человеческую речь на девяти языках и адаптироваться к новому голосу с помощью всего трех секунд эталонного аудио. Модель имеет 4 миллиарда параметров и создана на основе архитектуры Ministral 3B, что позволяет запускать её даже на обычных ноутбуках.
Одним из главных преимуществ Voxtral TTS является возможность клонирования голосов без необходимости длительных образцов — достаточно всего трех секунд. В ходе тестов модель продемонстрировала высокую точность, обойдя конкурентов в соревнованиях человека на слух.
Voxtral TTS предлагает разработчикам гибкость в использовании: вы можете либо работать через API, либо скачать модель и настроить её на собственном сервере. Это делает его идеальным решением для коммерческих приложений, где каждый миллисекунда имеет значение.
С Voxtral TTS разработчики получают мощный инструмент, подходящий для реализации качественной и быстрой синтезированной речи в реальном времени.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.
