Google представила голосовой ассистент нового поколения Gemini 2.5 Flash

Google презентовала preview-версию Gemini 2.5 Flash, в которой реализована поддержка нативного аудио. Это позволяет системе понимать голос пользователя без промежуточного преобразования в текст, что значительно снижает задержки в диалоге и улучшает качество звучания. Ответы ассистента становятся более естественными и схожими с человеческими.

Новый интерактивный помощник реже перебивает пользователей и даже может быстро прекращать свою речь, если собеседник начинает говорить. Модель улучшила распознавание голоса в шумных условиях и теперь лучше справляется с вызовами различных функций, таких как добавление событий в календарь.

Еще одним важным обновлением стало бесшовное переключение между несколькими языками и возможность распознавания эмоций пользователя. Ассистент теперь может подстраивать свой стиль общения в зависимости от настроения собеседника. Опробовать новые функции можно в Google AI Studio в разделе Stream, а полную версию планируется выпустить позже в приложении Gemini App.

Также представлено обновление модели v3 в приложении ElevenLabs, где пользователи могут клонировать свой голос за считанные минуты и генерировать новый звук. Это превращает приложение в удобно доступный инструмент для создания контента, которому не требуется специальное оборудование. Работа с материалом стала столь же быстрой, как написание текста.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена