一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

08:49 · 2025年10月7日 · 周二

一个小站的自留地

OpenAI 发布 Sora 2。 Sora 2 是一个音视频同步生成模型，物理真实性大幅提升，且支持生成长达 16 秒的连贯叙事视频。 ChatGPT Pro 订阅用户还支持访问 Sora 2 Pro 模型。 OpenAI 同步上线了 Sora iOS App。

OpenAI 举行 Dev Day 活动，发布了：

- apps in ChatGPT
- AgentKit 工具包
- Codex 正式版
- GPT-5 pro API
- Sora 2 和新图像和语音模型 API

——————

另据本频信源，Google 即将推出 Gemini 3 系列模型，现已进入发布前的最终阶段，预期本年度内发布。

13:37 · 2025年10月5日 · 周日

一个小站的自留地

Anthropic 正对涉及 Claude Max 订阅的 Claude Code 滥用行为进行严厉打击。据本频信源，Anthropic 于八月起对涉及 Claude Max 订阅的 Claude Code 滥用行为实行了「前所未有的」风控措施。涉及的账户大多订阅了 Claude Max 200 套餐，有同 IP 多账户、并发多会话的行为特征，且长时间大量使用 Claude Code。此轮封禁亦存在自动化的特征，即 Anthropic 会在非美国办公时间封禁账户，最快情况下，滥用的账号会在 5 分钟内被定点清除。…

Claude 正式推出新每周用量限制

Anthropic 在推出其 Claude 4.5 系列模型的同时，为 Claude 的付费订阅方案 (包括 Pro 和 Max) 正式上线了新的每周用量限制。然而，大量付费用户在 Reddit 等社交平台反映，他们的每周使用额度消耗速度远超预期。

Anthropic 官方账号在 Reddit 发布声明解释称，额度快速消耗主要是由于用户使用了更强大的 Opus 4.1 模型所致，其资源消耗远高于 Sonnet 4.5 模型。官方建议用户切换到 Sonnet 4.5 以获得更多的使用时长，并称更新后的 Sonnet 4.5 是其「目前最好的编程模型」。作为过渡期的补偿，Anthropic 为所有付费用户重置了一次每周用量，并为最高等级的 Max 20x 用户提供了额外购买用量的选项。

（Reddit）

——————

据本频信源，Anthropic 将 20x 的 Claude Max 使用 Claude Code 的使用量，限制在了每周约 800 美金，这一额度约是限制前的 1/5。

07:52 · 2025年10月1日 · 周三

一个小站的自留地

OpenAI 正式发布 GPT-5 GPT-5 是 OpenAI 最先进的模型，在推理、代码质量和用户体验方面有重大提升。它针对需要逐步推理、遵循指令以及在高风险用例中要求高准确性的复杂任务进行了优化。它支持测试时路由功能和高级提示理解，包括用户指定的意图，如「认真思考这个问题」。改进包括减少幻觉、谄媚行为，并在编程、写作和健康相关任务中表现更好。该模型拥有 272,000 词元的超大上下文窗口，最大输出可达 128,000 词元，支持文本和图像的多模态处理。 GPT-5 Chat 专为企业应用设计，…

OpenAI 发布 Sora 2。

Sora 2 是一个音视频同步生成模型，物理真实性大幅提升，且支持生成长达 16 秒的连贯叙事视频。

ChatGPT Pro 订阅用户还支持访问 Sora 2 Pro 模型。

OpenAI 同步上线了 Sora iOS App。

15:06 · 2025年9月30日 · 周二

一个小站的自留地

DeepSeek 发布 V3.2-Exp 模型，API 价格直降 50% DeepSeek 发布了 DeepSeek-V3.2-Exp 模型。新版本引入了稀疏注意力机制 (DSA)，旨在提升长文本的训练与推理效率。据官方介绍，其表现与 V3.1-Terminus 版本基本持平。本次更新已同步覆盖官方 App、网页端及小程序。同时，此次更新也为开发者带来了福利，API 成本直降 50%，即刻生效。目前，DeepSeek-V3.2-Exp 模型已在 HuggingFace、ModelScope 平台…

智谱发布了 GLM-4.6 模型，主打编程能力。

官方称其代码能力对标 Claude Sonnet 4，是编程能力最强的开源模型。与此同时，该模型上下文窗口增加到了 200k。

01:05 · 2025年9月30日 · 周二

一个小站的自留地

北京时间 9 月 11 日零时许，Anthropic 出现大规模服务中断。API 服务和官网对话服务均完全不可用。故障持续约一小时后被修复。

Anthropic 发布 Claude Sonnet 4.5

Anthropic 于 9 月 30 日发布了新一代模型 Claude Sonnet 4.5，在编程能力上取得显著突破。该模型在 SWE-bench Verified 编程基准测试中排名第一，并能连续工作超过 30 小时。

此次更新同步推出多项新工具与功能：

- Claude Code 新增「检查点」功能，允许保存和回滚进度，并发布了原生 VS Code 插件。

- Claude Agent SDK 对外开放，为开发者提供构建 AI 智能体 (Agent) 的底层基础设施。

- Imagine with Claude 作为一项限时研究预览功能向 Max 订阅用户开放，可实时生成软件。

Claude Sonnet 4.5 在推理、数学及计算机操作能力上也有所提升。新模型将通过 Claude API 提供，价格与上一代 Sonnet 4 保持一致，即每百万词元 (Token) 输入 3 美元，输出 15 美元。

（Anthropic）

16:50 · 2025年9月29日 · 周一

一个小站的自留地

深度求索 22 日晚发布消息，DeepSeek 线上模型已升级，当前版本号 DeepSeek-V3.1-Terminus。该模型提升了编程智能体能力，修复了部分字符输出异常的问题。

DeepSeek 发布 V3.2-Exp 模型，API 价格直降 50%

DeepSeek 发布了 DeepSeek-V3.2-Exp 模型。新版本引入了稀疏注意力机制 (DSA)，旨在提升长文本的训练与推理效率。据官方介绍，其表现与 V3.1-Terminus 版本基本持平。

本次更新已同步覆盖官方 App、网页端及小程序。同时，此次更新也为开发者带来了福利，API 成本直降 50%，即刻生效。

目前，DeepSeek-V3.2-Exp 模型已在 HuggingFace、ModelScope 平台开源，相关技术论文也已同步公开。

（DeepSeek）

——————

据赛博禅心，智谱也即将发布GLM-4.6。

另有传言称，OpenAI 和 Google Gemini 都将于十月上旬发布模型更新。

11:12 · 2025年9月24日 · 周三

一个小站的自留地

阿里云发布 Qwen3-Next 架构，训练成本降低 90% 9 月 12 日，通义千问发布了其下一代基础模型架构 Qwen3-Next，并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。新架构旨在提升模型在长上下文和大规模总参数下的训练与推理效率。 Qwen3-Next 的核心改进包括混合注意力机制、高稀疏度混合专家模型 (Mixture-of-Experts, MoE) 结构、一系列训练稳定性优化以及多词元 (token) 预测机制。其 MoE 模型拥有 800 亿总参数，但每次推理仅激活约…

阿里巴巴发布旗舰模型 Qwen3-Max

阿里巴巴发布旗舰模型 Qwen3-Max。该模型参数超过 1 万亿，使用 36T 词元 (Tokens) 进行预训练。其指令微调版本 Qwen3-Max-Instruct 在 LMArena 文本排行榜上名列第三，超越了 GPT-5-Chat。在代码生成基准 SWE-Bench Verified 和智能体 (agent) 工具调用基准 Tau2-Bench 上的得分也超越了 Claude Opus 4 等模型。目前 Qwen3-Max 已通过阿里云 API 和千问官网 (Qwen Chat) 提供服务。

此前 9 月 23 日，Qwen 团队还发布了以下模型：

「Qwen3-Omini」是业界首个原生端到端全模态大模型，能够统一处理文本、图像、音频和视频，支持长达 30 分钟的音频理解，延迟仅为 211ms。

「Qwen-Image-Edit-2509」是图像编辑模型的升级版，提升了多图编辑和人物角色的一致性，并内置 ControlNet 以支持更精细的调整。

「Qwen3-TTS」是一项文本转语音 (TTS) 模型的 API 服务，支持多种语言、方言和音色，响应延迟低至 97ms。

最新发布的 Qwen3Guard 则是一款基于 Qwen3 构建的 AI 安全审核模型，旨在提供实时的内容安全分析。它支持 119 种语言，提供 0.6B、4B、8B 三种尺寸，并具备逐词元 (token-by-token) 的实时流检测能力，可将内容分为安全、有争议和不安全三个等级。

(通义千问)

20:52 · 2025年9月22日 · 周一

一个小站的自留地

深度求索 19 日晚发布消息，DeepSeek 线上模型版本已升级至 V3.1，上下文长度拓展至 128k，欢迎前往官方网页、APP、小程序测试，API 接口调用方式保持不变。 21 日，DeepSeek 正式发布 DeepSeek-V3.1 模型。此次更新引入了混合推理架构，将模型分为「非思考模式」与「思考模式」，旨在兼顾日常问答的效率与复杂任务的深度推理能力。 DeepSeek V3.1 的核心亮点包括： - 混合推理架构：模型提供 deepseek-chat (非思考模式) 和 deepseek…

深度求索 22 日晚发布消息，DeepSeek 线上模型已升级，当前版本号 DeepSeek-V3.1-Terminus。该模型提升了编程智能体能力，修复了部分字符输出异常的问题。

20:35 · 2025年9月12日 · 周五

一个小站的自留地

阿里云发布 Qwen3-Max-Preview (Instruct)，参数量超 1 万亿。目前，Qwen3-Max-Preview 已正式上线阿里云百炼平台，可通过 API 直接调用。同时，Qwen Chat 也同步上线新模型，支持免费使用。该模型预期将作为闭源模型提供。

阿里云发布 Qwen3-Next 架构，训练成本降低 90%

9 月 12 日，通义千问发布了其下一代基础模型架构 Qwen3-Next，并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。新架构旨在提升模型在长上下文和大规模总参数下的训练与推理效率。

Qwen3-Next 的核心改进包括混合注意力机制、高稀疏度混合专家模型 (Mixture-of-Experts, MoE) 结构、一系列训练稳定性优化以及多词元 (token) 预测机制。其 MoE 模型拥有 800 亿总参数，但每次推理仅激活约 30 亿参数，实现了极致的稀疏度。

官方表示，新架构的训练效率极高。Qwen3-Next-80B-A3B-Base 模型的性能与 Qwen3-32B 模型相当甚至更好，但其训练成本 (GPU hours) 不到后者的十分之一。在推理方面，当处理 32K 以上上下文时，其吞吐量是 Qwen3-32B 的十倍以上。

性能方面，Qwen3-Next-80B-A3B-Instruct 对话模型的效果与旗舰模型 Qwen3-235B 相当，并在 256K 超长上下文任务中表现更优。其 Thinking 模型在复杂推理任务上则超越了闭源模型 Gemini-2.5-Flash-Thinking。

目前，新模型已在魔搭社区和 HuggingFace 开源，用户也可通过通义千问官网免费体验，或通过阿里云百炼平台调用 API。

00:28 · 2025年9月11日 · 周四

北京时间 9 月 11 日零时许，Anthropic 出现大规模服务中断。API 服务和官网对话服务均完全不可用。

故障持续约一小时后被修复。

01:07 · 2025年9月6日 · 周六

一个小站的自留地

阿里云发布 Qwen3-VL 的闭源版本，支持图片、视频理解，现已在阿里云百炼平台可用，模型调用名为「通义千问 VL-Max-2025-08-13」。尚不清楚该模型是否有开源计划。

阿里云发布 Qwen3-Max-Preview (Instruct)，参数量超 1 万亿。

目前，Qwen3-Max-Preview 已正式上线阿里云百炼平台，可通过 API 直接调用。同时，Qwen Chat 也同步上线新模型，支持免费使用。

该模型预期将作为闭源模型提供。

17:23 · 2025年9月4日 · 周四

成都中立光华机房整体断网

9 月 4 日下午 16 时许，成都中立光华电信机房被整体断网。该机房是相当多廉价 VPS 的托管机房。

据一份网传机房提供给客户的说明显示，机房称，「因我公司与四川电信存在债务纠纷，四川电信已于 2025 年 9 月 4 日终止为我公司提供 IDC 网络接入服务，直接导致我公司相关网络线路中断」。

本频道从三个信源确认了该事件。截至发稿，该机房仍处于整体断网状态。

17:05 · 2025年8月30日 · 周六

一个小站的自留地

微软 8 月部分 Win10/Win11 更新补丁存在严重存储设备故障风险微软 2025 年 8 月推送的部分 Windows 10 与 Windows 11 累积更新补丁，在特定条件下可能导致 NVMe SSD 及部分 HDD 故障，出现掉盘、数据损坏甚至硬件损坏。目前已确认涉及的版本包括： - Windows 11：24H2 KB5063878（26100.4946）、23H2 KB5063875（22621.5768、22631.5768） - Windows 10：22H2/21H2…

#后续

微软表示，8 月的 KB5063878 安全更新 与用户报告的固态硬盘（SSD）和机械硬盘（HDD）故障及数据损坏问题之间，没有发现关联。

后续

23:44 · 2025年8月26日 · 周二

一个小站的自留地

阿里云开源图像生成模型 Qwen-Image，文本渲染能力表现突出 8 月 5 日，Qwen 团队宣布开源 Qwen-Image，这是一个参数规模为 20B 的 MMDiT 模型，在各类生成与编辑任务中达到了开源模型的最佳水平 (SOTA)。

Google 发布 Gemini 2.5 Flash Image，正式确认「nano-banana」身份

Google 于 8 月 26 日正式发布 Gemini 2.5 Flash Image 模型，确认其就是此前在网络上走红的「nano-banana」AI 图像生成器。该模型现已在 Gemini 应用、Google AI Studio 和 Vertex AI 中提供服务。

Gemini 2.5 Flash Image 是 Google 最新的图像生成和编辑模型，相比其他领先模型具有更低的延迟。该模型专注于字符和场景一致性，能够将多张图片混合成单一图像，保持角色在丰富故事情节中的一致性，并使用自然语言进行定向转换。

用户只需向 Gemini 提供一张图片和文本提示，AI 就能保持用户的外观特征并进行所需的编辑。该模型还能根据指令将两张不同的图片合并为一张照片，或将一张图片的元素应用到另一张图片中创建新图像。

在技术特性方面，Gemini 2.5 Flash Image 利用 Gemini 的世界知识和增强推理能力来创建符合现实世界逻辑的图像，特别适合创建详细且逼真的图像，例如烹饪食谱的插图。与大多数图像生成模型不同，该模型能够准确渲染长文本序列，避免格式错误或拼写错误。

定价方面，Gemini 2.5 Flash Image 按每 100 万输出 token 收费 30 美元，每张图片对应 1290 个输出 token，单张图片费用为 0.039 美元（合人民币约 0.28 元）。

为便于开发者使用，Google 对 AI Studio 的「构建模式」进行了重大更新。开发者可以通过简单的提示词快速测试模型功能，创建自定义 AI 应用，并可直接从 Google AI Studio 部署或将代码保存到 GitHub。

（Google Developers Blog）

11:14 · 2025年8月26日 · 周二

一个小站的自留地

苹果发布紧急安全更新修复已被利用的 ImageIO 零日漏洞苹果于当地时间 2025 年 8 月 20 日发布了针对 iOS、iPadOS 和 macOS 的紧急安全更新，旨在修复一个已被黑客在野利用的零日漏洞 (Zero-Day)。该漏洞编号为 CVE-2025-43300，存在于系统的 ImageIO 框架中。该漏洞是一个越界写入 (out-of-bounds write) 问题。攻击者可以制作恶意的图像文件，当用户设备上的 ImageIO 框架处理该图像时，便会触发内存损坏，可能导致任意代码执行。…

Docker Desktop 修复严重安全漏洞

Docker 近日发布紧急安全更新，修复了影响 Windows 10/11 和 macOS 版 Docker Desktop 的高危安全漏洞。该漏洞编号为 CVE-2025-9074，CVSS 评分高达 9.3 分，已在 Docker Desktop v4.44.3 版中得到修复。

该漏洞由安全研究人员 Felix Boulet 发现，与容器无需身份验证即可连接到 Docker Engine API 有关。恶意容器可利用此漏洞直接穿透虚拟化防御，访问宿主机的文件系统。在概念验证中，研究人员展示了来自任何容器的 Web 请求都可触发漏洞，导致安装 Docker Desktop 的宿主机完全被攻陷。

由于 macOS 对应用程序实施的文件系统限制，该漏洞在 macOS 上主要影响 Docker Desktop 控制权，而在 Windows 10/11 上威胁更大。值得注意的是，Docker Desktop for Linux 版不受此问题影响，因为在 Linux 上 Docker Desktop 不依赖 Docker Engine API 的 TCP 连接。

攻击者可能通过供应链攻击的方式利用该漏洞，例如通过社会工程学手段控制热门容器镜像开发者账号，上传含有恶意代码的镜像。一旦用户运行这些恶意镜像，攻击者就能获得宿主机文件系统访问权限，甚至可能提升至系统管理员权限。

所有使用 Docker Desktop（Windows or macOS）的用户都需要立即升级到 v4.44.3 版。

（蓝点网）

——————

出于各种原因，本频推荐在 macOS 上使用 Orbstack 代替 Docker Desktop。

10:17 · 2025年8月24日 · 周日

一个小站的自留地

马斯克旗下 xAI 发布 Grok 4 模型北京时间 2025 年 7 月 10 日，Elon Musk 旗下的 xAI 公司正式发布了其下一代大语言模型 Grok 4 。该模型在多项关键基准测试中表现出色，综合性能超越了 OpenAI 的 o3 和 Google 的 Gemini 2.5 Pro 等主要竞争对手。 Grok 4 在被誉为「人类最后的考试 (HLE)」的超高难度测试中得分远超以往模型，其增强版 Grok 4 Heavy 更是在 AIME 2025 (美国数学邀请赛) 中取得满分。根据…

马斯克旗下 xAI 正式开源 Grok 2.5 模型，并宣布 Grok 3 将在半年后开源。

Grok 2.5 权重文件已在 Hugging Face 上线，共 42 个文件，总大小约 500 GB，需要 8 张显存超过 40 GB 的 GPU。

从去年 xAI 发布的技术博客看，Grok 2 系列在 LMSYS 排行榜 Elo 分数超越 GPT-4，在 GPQA、MMLU、MMLU-Pro 和 MATH 等基准测试中达到前沿水平。不过，社区反馈指出，xAI 未明确模型参数（推测为 2690 亿参数的 MoE 架构），开源协议接近非商业许可，与 Mistral、Qwen 等 MIT 或 Apache 2.0 许可不同，且运行门槛较高。

马斯克还表示，xAI 很快将超越谷歌，但中国公司才是其最大对手。

17:00 · 2025年8月22日 · 周五

一个小站的自留地

WinRAR 出现零日漏洞, 已遭多方利用流行压缩工具 WinRAR 被曝存在高危路径遍历漏洞（CVE-2025-8088），可在用户解压特制压缩包时，将恶意 DLL、EXE 或快捷方式（LNK）文件写入系统关键目录，并在 Windows 启动时自动运行，实现持久化控制。该漏洞影响 WinRAR 及相关 Windows 解压组件（包括 UnRAR.dll 与便携源码），不涉及 Unix 与 Android 版本。安全公司 ESET 于 7 月 18 日首次捕获攻击样本，确认漏洞已被俄罗斯背景的…

苹果发布紧急安全更新修复已被利用的 ImageIO 零日漏洞

苹果于当地时间 2025 年 8 月 20 日发布了针对 iOS、iPadOS 和 macOS 的紧急安全更新，旨在修复一个已被黑客在野利用的零日漏洞 (Zero-Day)。该漏洞编号为 CVE-2025-43300，存在于系统的 ImageIO 框架中。

该漏洞是一个越界写入 (out-of-bounds write) 问题。攻击者可以制作恶意的图像文件，当用户设备上的 ImageIO 框架处理该图像时，便会触发内存损坏，可能导致任意代码执行。

该漏洞由苹果内部发现，并通过改进边界检查进行了修复。由于该漏洞已被积极利用，建议所有用户尽快更新到最新系统。

修复该漏洞的系统版本如下：

* iOS 18.6.2 和 iPadOS 18.6.2：
* iPadOS 17.7.10
* macOS Sequoia 15.6.1
* macOS Sonoma 14.7.8
* macOS Ventura 13.7.8

美国网络安全和基础设施安全局 (CISA) 已将要求联邦机构在 2025 年 9 月 11 日前完成更新。

(综合媒体报道)

08:46 · 2025年8月21日 · 周四

一个小站的自留地

字节跳动发布豆包视频生成大模型 PixelDance 和 Seaweed，AI 视频创作迎来新突破 2024 年 9 月 24 日，字节跳动在火山引擎的「AI 创新巡展」活动上正式发布了两款 AI 视频生成大模型——豆包视频生成-PixelDance 和豆包视频生成-Seaweed。豆包视频生成大模型的最大亮点在于其对复杂指令的精准理解以及自然连贯的多主体互动能力。与传统的视频生成模型相比，这两款模型能够在不同镜头下保持人物样貌、服装细节以及头饰的一致性，接近实拍效果。尤其是在多主体、多动作交互场景中，表现尤为出色。…

字节跳动开源 36B 大模型 Seed-OSS

字节跳动 Seed 团队正式开源了 Seed-OSS-36B 模型。该模型系列采用 Apache-2.0 许可证，向社区完全开放。

Seed-OSS 的一大亮点是原生支持 512K 的上下文长度，并在多个主流基准测试中展现出优异性能。模型架构采用了 RoPE、GQA 注意力机制、RMSNorm 和 SwiGLU 激活函数。

本次开源包含两个基座模型版本：官方推荐的包含合成指令数据的 Seed-OSS-36B-Base，以及为研究社区提供的不含合成数据的「纯净」版本。

指令微调版本 Seed-OSS-36B-Instruct 的表现尤为突出，其 Agent 能力在 TAU1-Retail 任务上取得了 70.4 分，刷新了开源模型的 SOTA 记录；代码能力在 LiveCodeBench v6 测试上达到 67.4 分，同样位居开源模型榜首。此外，模型引入了「推理预算 (thinking budget)」机制，允许用户根据任务需求动态调整推理长度，以平衡性能与资源消耗。

与 OpenAI 开源的 GPT-OSS-120B 模型相比，Seed-OSS 以约三分之一的参数量，在长上下文处理、编程和 Agent 能力等多个方面都达到了相当甚至更优的水平。

（Hugging Face）

07:34 · 2025年8月20日 · 周三

自北京时间 2025 年 8 月 20 日 0:36 开始，中国往海外方向骨干网上的任何 443 端口流量被完全阻断。海外往中国方向的 443 端口亦有阻断报告。

据媒体报道，本次阻断持续约一小时，至01:47 恢复。本次阻断无白名单类似机制，所有 443 端口流量（包括加密流量）均被阻断。80 和其他端口均不受影响。

部分国内互联网企业非核心业务受到影响。据本频信源，部分企业将此次故障描述为「运营商」行为，且应为预期外的事故。

有消息指出，本次阻断是因运营商网络策略错配，将适用于家庭宽带的禁止 443 端口策略配置到了骨干网上，而非位于国际网络出口的 GFW 设备导致。本频暂未能独立对该说法进行核实。

海外机构GFW Report 则认为，此次阻断和此前 GFW 实施的阻断完全不同，有可能是新的审查设备或手段被部署。

（GFW Report）(阿里云）

19:20 · 2025年8月19日 · 周二

一个小站的自留地

深度求索 28 日发布消息，DeepSeek R1 模型已完成小版本试升级，API 接口和使用方式保持不变。

深度求索 19 日晚发布消息，DeepSeek 线上模型版本已升级至 V3.1，上下文长度拓展至 128k，欢迎前往官方网页、APP、小程序测试，API 接口调用方式保持不变。

21 日，DeepSeek 正式发布 DeepSeek-V3.1 模型。此次更新引入了混合推理架构，将模型分为「非思考模式」与「思考模式」，旨在兼顾日常问答的效率与复杂任务的深度推理能力。

DeepSeek V3.1 的核心亮点包括：

- 混合推理架构：模型提供 deepseek-chat (非思考模式) 和 deepseek-reasoner (思考模式) 两种接口。其中，用于深度思考的 V3.1-Think 在性能与上一代 R1-0528 持平的情况下，可节省 20% 至 50% 的词元 (Token) 消耗。而非思考模式也优化了输出长度，解决了先前版本过于「话唠」的问题。

- 增强的智能体 (Agent) 能力：新模型在工具调用和智能体任务方面获得显著提升。根据官方数据，V3.1 在编程智能体测评 SWE-bench 和命令行终端测评 Terminal-Bench 中的准确率近乎翻倍，在多步推理的复杂搜索测试 browsecomp 中，准确率从 8.9% 大幅提升至 30%。

- API 升级与价格调整：API 的上下文长度从 64K 扩展至 128K，并为函数调用 (Function Calling) 加入了严格模式检查。定价模式统一为每百万输入词元 4 元，输出词元 12 元，并取消了夜间优惠，新价格将于北京时间 2025 年 9 月 6 日零点生效。

- 模型开源：V3.1 的 Base 模型在 V3 基础上额外训练了 840B 词元，并与后训练模型均已在 Hugging Face 和魔搭社区开源。需要注意的是，新模型的分词器和聊天模板不兼容旧版本。

此次更新被官方称为「迈向 Agent 时代的第一步」，网页端和 App 的「深度思考」功能也已同步升级。

Before

After

Home

个人博客

讨论组