Новые нейросети SkyReels V2 и TripoSG/TripoSF расширяют возможности генерации контента

Разработчики SkyworkAI представили SkyReels V2 — открытую модель для генерации видео по текстовому описанию. В отличие от большинства аналогов, использующих метод обратной диффузии, новая нейросеть применяет архитектуру Diffusion Forcing, которая объединяет мультимодальные модели и многоступенчатую подготовку данных. Это позволяет создавать более согласованные и продолжительные видео. В режиме Camera Director пользователь управляет виртуальной камерой, меняя ракурсы и отслеживая объекты, а Elements-to‑Video добавляет визуальные эффекты. В бенчмарке VBench SkyReels V2 превосходит OpenSora, Wan2.1 и HunyuanVideo, показывая лучшие результаты по качеству. Исходный код и веса модели доступны на GitHub и Hugging Face, а тестировать можно на сайте проекта. Также команда Vast AI и университеты выпустили TripoSG и TripoSF — инновационные модели для создания высокодетализированных 3D‑моделей, пригодных для игр и печати. Они используют трансформеры с выпрямленным потоком, что уменьшает шум и повышает точность объектов, даже сложных по топологии. TripoSG отлично преобразует изображения в 3D, а TripoSF генерирует сложности конструкции с внутренними деталями. Обе модели доступны для скачивания и тестирования, что открывает новые горизонты в области трехмерного дизайна и визуализации.