阿里巴巴推出旗舰推理模型 Qwen3-Max-Thinking
Qwen 团队宣布推出最新旗舰推理模型 Qwen3-Max-Thinking。官方称其通过扩大参数规模并投入更多强化学习训练算力,在事实知识、复杂推理、指令遵循、人类偏好对齐与智能体能力等维度提升,并在 19 项基准测试中表现可与 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro 等顶尖模型对标。
这次更新的两项核心能力是「自适应工具调用」与「测试时扩展」。前者让模型在对话中可自主选择并调用内置搜索、记忆与代码解释器,不再依赖用户手动选工具。
后者属于推理阶段加算力的策略升级。Qwen 团队提出一种经验累积式、多轮迭代的测试时扩展方法:限制并行推理路径数量,把节省的计算资源用于由「经验提取」机制引导的迭代式自我反思,以减少重复推导、聚焦未解决的不确定性,并在相近 token 消耗下获得更高的上下文利用效率。官方给出的关键推理基准提升包括:GPQA 从 90.3 提升至 92.8,HLE 从 34.1 提升至 36.5,LiveCodeBench v6 从 88.0 提升至 91.4,IMO-AnswerBench 从 89.5 提升至 91.5,HLE(w/ tools)从 55.8 提升至 58.3。
Qwen3-Max-Thinking 已上线 Qwen Chat(chat.qwen.ai),同时开放 API(模型名为 qwen3-max-2026-01-23)
Qwen 团队宣布推出最新旗舰推理模型 Qwen3-Max-Thinking。官方称其通过扩大参数规模并投入更多强化学习训练算力,在事实知识、复杂推理、指令遵循、人类偏好对齐与智能体能力等维度提升,并在 19 项基准测试中表现可与 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro 等顶尖模型对标。
这次更新的两项核心能力是「自适应工具调用」与「测试时扩展」。前者让模型在对话中可自主选择并调用内置搜索、记忆与代码解释器,不再依赖用户手动选工具。
后者属于推理阶段加算力的策略升级。Qwen 团队提出一种经验累积式、多轮迭代的测试时扩展方法:限制并行推理路径数量,把节省的计算资源用于由「经验提取」机制引导的迭代式自我反思,以减少重复推导、聚焦未解决的不确定性,并在相近 token 消耗下获得更高的上下文利用效率。官方给出的关键推理基准提升包括:GPQA 从 90.3 提升至 92.8,HLE 从 34.1 提升至 36.5,LiveCodeBench v6 从 88.0 提升至 91.4,IMO-AnswerBench 从 89.5 提升至 91.5,HLE(w/ tools)从 55.8 提升至 58.3。
Qwen3-Max-Thinking 已上线 Qwen Chat(chat.qwen.ai),同时开放 API(模型名为 qwen3-max-2026-01-23)