4 月 29 日,阿里巴巴开源了第三代千问大模型 Qwen3 系列,一口气发布了 8 个不同参数规模的模型。其中包括 6 个稠密模型和 2 个混合专家模型(MoE),覆盖从手机端到企业级服务器的各种应用场景:最小的 Qwen3-0.6B 仅有 6 亿参数,量化后只需 0.6GB 显存;最大的旗舰模型 Qwen3-235B-A22B 总参数量达 2350 亿,推理时激活 22 亿参数。
Qwen3 系列最大的创新是支持混合推理模式,通过 enable_thinking 参数控制,用户可将同一模型切换为快速响应或深度思考模式。对数学、编程等需要逻辑推理的问题启用思考模式,而摘要等简单任务则使用非推理模式提升速度。
在性能方面,旗舰模型 Qwen3-235B-A22B 在 LiveCodeBench 编程评测中得分达 70.7 分,超过了 OpenAI 的 o1、DeepSeek-R1 等顶级模型。体积较小的 Qwen3-4B 性能已可媲美上一代的 Qwen2.5-72B-Instruct。此外,Qwen3 系列支持 119 种语言(上一代仅 29 种),强化了 Agent 能力和 MCP 协议支持,并将上下文窗口扩展至最大 128K。
所有 Qwen3 系列模型均采用 Apache 2.0 协议开源,完全免费商用,部署成本约为 DeepSeek-R1 的三分之一。用户可在 Hugging Face、ModelScope 和 Kaggle 等平台获取模型权重。
(DataLearner)