9 月 12 日,通义千问发布了其下一代基础模型架构 Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。新架构旨在提升模型在长上下文和大规模总参数下的训练与推理效率。
Qwen3-Next 的核心改进包括混合注意力机制、高稀疏度混合专家模型 (Mixture-of-Experts, MoE) 结构、一系列训练稳定性优化以及多词元 (token) 预测机制。其 MoE 模型拥有 800 亿总参数,但每次推理仅激活约 30 亿参数,实现了极致的稀疏度。
官方表示,新架构的训练效率极高。Qwen3-Next-80B-A3B-Base 模型的性能与 Qwen3-32B 模型相当甚至更好,但其训练成本 (GPU hours) 不到后者的十分之一。在推理方面,当处理 32K 以上上下文时,其吞吐量是 Qwen3-32B 的十倍以上。
性能方面,Qwen3-Next-80B-A3B-Instruct 对话模型的效果与旗舰模型 Qwen3-235B 相当,并在 256K 超长上下文任务中表现更优。其 Thinking 模型在复杂推理任务上则超越了闭源模型 Gemini-2.5-Flash-Thinking。
目前,新模型已在魔搭社区和 HuggingFace 开源,用户也可通过通义千问官网免费体验,或通过阿里云百炼平台调用 API。