Alibaba представила Qwen3-VL — мультимодальную модель с открытой лексикой

Компания Alibaba анонсировала свою новую мультимодальную модель Qwen3-VL, которая доступна в версиях с 4 и 8 миллиардов параметров. Эта мощная модель умеет работать как с текстами, так и с изображениями, поддерживая контекст до 256 тысяч токенов и возможность расширения до 1 миллиона.

Одной из ключевых особенностей Qwen3-VL является поддержка открытой лексики, что позволяет ей интерпретировать контекст изображений, включая объекты, логотипы и знаменитостей. Модель функционирует в двух режимах: Instruct для генерации текста и Thinking для более сложных вычислений и логического анализа.

Она также оснащена улучшенной системой OCR, умеющей извлекать текст даже из низкокачественных изображений на 32 языках, включая казахский и китайский. Qwen3-VL в ряде задач превосходит свою предшественницу Qwen2.5-VL-72B.

Модель распространяется под лицензией Apache 2.0 и уже доступна на платформе Hugging Face.

Для запуска новых задач попробуйте BotHub — сервис, доступный без VPN и с возможностью использовать российские карты!

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена