Компания OpenAI анонсировала свой новый пакет аудиомоделей, который позволяет разработчикам тонко настраивать речь своих ИИ-помощников. Обновление включает в себя значительно улучшенное распознавание речи и возможность управлять стилем звучания голоса ИИ с помощью простых текстовых команд.
Модели gpt-4o-transcribe и gpt-4o-mini-transcribe предлагают меньше ошибок по сравнению с ранее существующими системами Whisper, особенно в сложных условиях, таких как сильные акценты или фоновый шум. Кроме того, новая модель gpt-4o-mini-tts позволяет задавать стиль речи, реагируя на инструкции, например, «говорите как пират» или «расскажите это как сказку на ночь».
Улучшенная производительность достигается благодаря специализированному предварительному обучению на аудиоданных и применению методов самообучения.
Разработчики могут использовать эти модели через API OpenAI и интегрировать их с помощью Agents SDK. На данный момент система работает только с предустановленными голосами OpenAI, но в будущем планируется добавить возможность создания пользовательских голосов.
