Microsoft презентовала MAI-Image-1, свою новейшую модель генерации изображений, которая теперь доступна в Bing Image Creator и мобильных приложениях. Это первая значимая text-to-image система, созданная исключительно внутри компании без привлечения сторонних разработчиков, включая OpenAI.
MAI-Image-1 уже заняла место в десятке лучших моделей на LMArena, показывая выдающееся качество и точность в создании изображений, особенно в сложных сценах с несколькими персонажами. Главное преимущество модели — это оптимизация под голосовые и визуальные ассистенты Microsoft, позволяющая визуализировать истории, описанные пользователями.
Построенная на архитектуре Diffusion XL, MAI-Image-1 поддерживает множество языков и является основой для мультимодальных продуктов компании. Однако стоит отметить, что в странах Европейского союза доступ к модели временно ограничен в ожидании одобрения регуляторов.
Кроме того, у пользователей Google Flow появилась новая версия видео-модели — Veo 3.1. Ходят слухи о её возможности работы с русским языком, однако кириллический текст по-прежнему создаёт трудности. Эта версия может помочь Google укрепить позиции на рынке видео-ИИ, конкурируя с другими известными моделями.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
