Компания OpenAI анонсировала запуск новых голосовых моделей на базе ИИ GPT-4o, которые теперь не только преобразуют текст в аудио, но и транскрибируют речь в реальном времени. Модель gpt-4o-mini-tts предлагает выбор из 11 уникальных голосов — от пирата до профессора, даря каждому из них собственный стиль и интонацию. Эти голоса поддерживают более 100 языков, включая русский.
Также, в обновленных версиях gpt-4o-transcribe и gpt-4o-mini-transcribe значительно улучшено распознавание речи. Теперь даже при наличии посторонних шумов, быстрой речи или акцентах модели обеспечивают высокую точность транскрипции. Такие возможности открывают новые горизонты для различных приложений — от создания видеоконтента до внедрения в системы голосовых помощников.
Получить доступ к новым моделям можно через API, а протестировать их можно на сайте openai.fm, где в бесплатной версии можно вводить текст до 1 000 символов. OpenAI активно движется к созданию полноценного цифрового представителя человека в виде интеллектуальных агентов, способных взаимодействовать с окружающим миром более естественно.
