阿里巴巴推出旗舰推理模型 Qwen3-Max-Thinking Qwen 团队宣布推出最新旗舰推理模型 Qwen3-Max-Thinking

一个小站的自留地

阿里巴巴开源 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 模型据通义大模型消息，阿里通义于 2026 年 1 月 8 日正式发布并开源 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 系列模型，采用 Apache 2.0 许可发布。该系列基于 Qwen3-VL 构建，定位多模态信息检索与跨模态理解，可用于图文、截图、视频等混合内容的匹配与检索。模型规格方面，当前开源版本包括 Qwen3-VL-Embedding-2B、Qwen3-VL…

阿里巴巴推出旗舰推理模型 Qwen3-Max-Thinking

Qwen 团队宣布推出最新旗舰推理模型 Qwen3-Max-Thinking。官方称其通过扩大参数规模并投入更多强化学习训练算力，在事实知识、复杂推理、指令遵循、人类偏好对齐与智能体能力等维度提升，并在 19 项基准测试中表现可与 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro 等顶尖模型对标。

这次更新的两项核心能力是「自适应工具调用」与「测试时扩展」。前者让模型在对话中可自主选择并调用内置搜索、记忆与代码解释器，不再依赖用户手动选工具。

后者属于推理阶段加算力的策略升级。Qwen 团队提出一种经验累积式、多轮迭代的测试时扩展方法：限制并行推理路径数量，把节省的计算资源用于由「经验提取」机制引导的迭代式自我反思，以减少重复推导、聚焦未解决的不确定性，并在相近 token 消耗下获得更高的上下文利用效率。官方给出的关键推理基准提升包括：GPQA 从 90.3 提升至 92.8，HLE 从 34.1 提升至 36.5，LiveCodeBench v6 从 88.0 提升至 91.4，IMO-AnswerBench 从 89.5 提升至 91.5，HLE（w/ tools）从 55.8 提升至 58.3。

Qwen3-Max-Thinking 已上线 Qwen Chat（chat.qwen.ai），同时开放 API（模型名为 qwen3-max-2026-01-23）