阿里云发布 Qwen3-235B-A22B-FP8 和 Qwen3-Coder

一个小站的自留地

阿里云发布 Qwen3-Embedding 系列模型 6 月 6 日，通义千问（Qwen）团队正式发布 Qwen3-Embedding 系列模型。该系列模型基于 Qwen3 基础模型训练，支持超过 100 种自然语言及多种编程语言。该系列模型架构灵活，提供 0.6B、2B、8B 三种参数规模。训练方面，Embedding 模型采用三阶段训练范式：首先利用超大规模弱监督数据进行对比学习预训练，随后基于高质量标注数据进行监督训练，最后通过模型融合提升整体性能。 Reranker 模型则直接基于高质…

阿里云发布 Qwen3-235B-A22B-FP8 和 Qwen3-Coder。

前者是 Qwen3-235B-A22B 的更新版，分为思考和非思考两个模型。据介绍，该模型在多语言的长尾知识覆盖方面取得进步，在主观任务中更能契合人类偏好，上下文长度提高到 256k Tokens。

后者是 Qwen 系列首个 MoE 代码模型，总参数 480B ，激活参数 35B，上下文 256k，可拓展至 1M。该模型主要改进了前代 Coder 模型缺失的 Agent 能力。

阿里还专门开源了命令行工具 Qwen Code，并且 Qwen Coder 模型也可通过 Anthropic 格式的 API 接入 Claude Code。