Команда Qwen компании Alibaba анонсировала новую архитектуру языковой модели Qwen3-Next, нацеленную на повышение эффективности обучения и вывода, особенно для задач с ультра-длинным контекстом и большим количеством параметров. Основой Qwen3-Next является гибридный механизм внимания в сочетании с разреженной структурой смешанных экспертов (MoE), что позволяет активировать лишь 3 миллиарда из 80 миллиардов параметров во время вывода.
Согласно блогу компании, новая модель демонстрирует производительность, сопоставимую и в некоторых случаях превосходящую Qwen3-32B, при этом используя менее 10% вычислительных ресурсов для обучения. Скорость вывода превышает 10 раз на контексте более 32,000 токенов.
Запущены две версии моделей: Qwen3-Next-80B-A3B-Instruct и Qwen3-Next-80B-A3B-Thinking. Они показывают значительные преимущества в задачах с ультра-длинным контекстом и сложным рассуждением.
Ключевые новшества включают использование DeltaNet, стабилизированное обучение и более быструю декодировку. Модель была предварительно обучена на датасете из 15 триллионов токенов и продемонстрировала высокую эффективность, необходимую лишь 9.3% вычислительных мощностей Qwen3-32B.
Доступ к моделям можно получить через Hugging Face и другие платформы, что символизирует шаг к Qwen3.5, направленный на дальнейшую оптимизацию и улучшение возможностей рассуждения.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
