一个小站的自留地
阿里云发布 Qwen3-Next 架构,训练成本降低 90% 9 月 12 日,通义千问发布了其下一代基础模型架构 Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。新架构旨在提升模型在长上下文和大规模总参数下的训练与推理效率。 Qwen3-Next 的核心改进包括混合注意力机制、高稀疏度混合专家模型 (Mixture-of-Experts, MoE) 结构、一系列训练稳定性优化以及多词元 (token) 预测机制。其 MoE 模型拥有 800 亿总参数,但每次推理仅激活约…
阿里巴巴发布旗舰模型 Qwen3-Max

阿里巴巴发布旗舰模型 Qwen3-Max。该模型参数超过 1 万亿,使用 36T 词元 (Tokens) 进行预训练。其指令微调版本 Qwen3-Max-Instruct 在 LMArena 文本排行榜上名列第三,超越了 GPT-5-Chat。在代码生成基准 SWE-Bench Verified 和智能体 (agent) 工具调用基准 Tau2-Bench 上的得分也超越了 Claude Opus 4 等模型。目前 Qwen3-Max 已通过阿里云 API 和千问官网 (Qwen Chat) 提供服务。

此前 9 月 23 日,Qwen 团队还发布了以下模型:

「Qwen3-Omini」是业界首个原生端到端全模态大模型,能够统一处理文本、图像、音频和视频,支持长达 30 分钟的音频理解,延迟仅为 211ms。

「Qwen-Image-Edit-2509」是图像编辑模型的升级版,提升了多图编辑和人物角色的一致性,并内置 ControlNet 以支持更精细的调整。

「Qwen3-TTS」是一项文本转语音 (TTS) 模型的 API 服务,支持多种语言、方言和音色,响应延迟低至 97ms。

最新发布的 Qwen3Guard 则是一款基于 Qwen3 构建的 AI 安全审核模型,旨在提供实时的内容安全分析。它支持 119 种语言,提供 0.6B、4B、8B 三种尺寸,并具备逐词元 (token-by-token) 的实时流检测能力,可将内容分为安全、有争议和不安全三个等级。

(通义千问)
 
 
Back to Top