Компания Alibaba анонсировала свою новую мультимодальную модель Qwen3-VL, которая доступна в версиях с 4 и 8 миллиардов параметров. Эта мощная модель умеет работать как с текстами, так и с изображениями, поддерживая контекст до 256 тысяч токенов и возможность расширения до 1 миллиона.
Одной из ключевых особенностей Qwen3-VL является поддержка открытой лексики, что позволяет ей интерпретировать контекст изображений, включая объекты, логотипы и знаменитостей. Модель функционирует в двух режимах: Instruct для генерации текста и Thinking для более сложных вычислений и логического анализа.
Она также оснащена улучшенной системой OCR, умеющей извлекать текст даже из низкокачественных изображений на 32 языках, включая казахский и китайский. Qwen3-VL в ряде задач превосходит свою предшественницу Qwen2.5-VL-72B.
Модель распространяется под лицензией Apache 2.0 и уже доступна на платформе Hugging Face.
Для запуска новых задач попробуйте BotHub — сервис, доступный без VPN и с возможностью использовать российские карты!
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
