Google презентовала preview-версию Gemini 2.5 Flash, в которой реализована поддержка нативного аудио. Это позволяет системе понимать голос пользователя без промежуточного преобразования в текст, что значительно снижает задержки в диалоге и улучшает качество звучания. Ответы ассистента становятся более естественными и схожими с человеческими.
Новый интерактивный помощник реже перебивает пользователей и даже может быстро прекращать свою речь, если собеседник начинает говорить. Модель улучшила распознавание голоса в шумных условиях и теперь лучше справляется с вызовами различных функций, таких как добавление событий в календарь.
Еще одним важным обновлением стало бесшовное переключение между несколькими языками и возможность распознавания эмоций пользователя. Ассистент теперь может подстраивать свой стиль общения в зависимости от настроения собеседника. Опробовать новые функции можно в Google AI Studio в разделе Stream, а полную версию планируется выпустить позже в приложении Gemini App.
Также представлено обновление модели v3 в приложении ElevenLabs, где пользователи могут клонировать свой голос за считанные минуты и генерировать новый звук. Это превращает приложение в удобно доступный инструмент для создания контента, которому не требуется специальное оборудование. Работа с материалом стала столь же быстрой, как написание текста.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
