OpenAI 发布 GPT-5.2 模型系列
OpenAI 今日正式发布 GPT-5.2 模型系列,包含 Instant、Thinking 和 Pro 三个版本。其中 Instant 主打快速响应,Thinking 擅长深度推理与编程,Pro 则专注于解决高难度任务。
在衡量真实工作能力的 GDPval 测试中,GPT-5.2 Thinking 取得了 70.9% 的胜率,成为首个在 44 种职业知识工作任务上达到或超过人类专家水平的模型;在抽象推理测试 ARC-AGI-2 中,其得分从前代的 17.6% 跃升至 52.9%;AIME 2025 数学竞赛更是取得 100% 满分。
此外,新模型在长文档分析(256k 上下文)、多模态空间理解及代码生成(SWE-Bench Pro 准确率 55.6%)方面均有显著提升,幻觉率降低约 30%。
目前 GPT-5.2 已向 ChatGPT 付费用户开放,API 同步上线,价格较 GPT-5.1 上涨约 40%,但官方称因效率提升综合成本反而更低。
(综合媒体报道)
OpenAI 今日正式发布 GPT-5.2 模型系列,包含 Instant、Thinking 和 Pro 三个版本。其中 Instant 主打快速响应,Thinking 擅长深度推理与编程,Pro 则专注于解决高难度任务。
在衡量真实工作能力的 GDPval 测试中,GPT-5.2 Thinking 取得了 70.9% 的胜率,成为首个在 44 种职业知识工作任务上达到或超过人类专家水平的模型;在抽象推理测试 ARC-AGI-2 中,其得分从前代的 17.6% 跃升至 52.9%;AIME 2025 数学竞赛更是取得 100% 满分。
此外,新模型在长文档分析(256k 上下文)、多模态空间理解及代码生成(SWE-Bench Pro 准确率 55.6%)方面均有显著提升,幻觉率降低约 30%。
目前 GPT-5.2 已向 ChatGPT 付费用户开放,API 同步上线,价格较 GPT-5.1 上涨约 40%,但官方称因效率提升综合成本反而更低。
(综合媒体报道)
Meta 拟推迟下一代模型发布并转向闭源策略
据 CNBC 和 Digitimes 报道,Meta 计划将代号为「Avocado」的下一代旗舰 AI 模型推迟至 2026 年第一季度发布,并放弃此前坚持的开源策略,转而开发闭源的专有模型。这一战略调整伴随着 Meta AI 部门的重大重组:新模型将由首席 AI 官 Alexandr Wang 领导的 Meta 超级智能实验室(MSL)加强控制开发;基础 AI 研究(FAIR)实验室近期遭遇裁员,著名科学家 Yann LeCun 已离职,长期产品高管 Chris Cox 也退出了 AI 领导团队。
报道称,促成这一转变的因素包括 Llama 4 系列市场反应冷淡、开源模型被 DeepSeek 等竞争对手利用的安全担忧,以及公司急需通过 API 或订阅服务实现 AI 投资回报的商业压力。
(综合媒体报道)
据 CNBC 和 Digitimes 报道,Meta 计划将代号为「Avocado」的下一代旗舰 AI 模型推迟至 2026 年第一季度发布,并放弃此前坚持的开源策略,转而开发闭源的专有模型。这一战略调整伴随着 Meta AI 部门的重大重组:新模型将由首席 AI 官 Alexandr Wang 领导的 Meta 超级智能实验室(MSL)加强控制开发;基础 AI 研究(FAIR)实验室近期遭遇裁员,著名科学家 Yann LeCun 已离职,长期产品高管 Chris Cox 也退出了 AI 领导团队。
报道称,促成这一转变的因素包括 Llama 4 系列市场反应冷淡、开源模型被 DeepSeek 等竞争对手利用的安全担忧,以及公司急需通过 API 或订阅服务实现 AI 投资回报的商业压力。
(综合媒体报道)
Cloudflare 配置变更导致短暂服务中断
12 月 5 日,Cloudflare 确认其网络服务及 Dashboard、API 出现短暂不可用。官方随后解释称,此次中断并非由网络攻击引起,而是团队为了缓解本周披露的 React Server Components 行业漏洞,对 Web 应用程序防火墙(WAF)解析请求的方式进行了更改,从而意外导致了网络中断。该问题持续了数分钟,目前已完全解决,服务已恢复正常。
(Cloudflare Status)
12 月 5 日,Cloudflare 确认其网络服务及 Dashboard、API 出现短暂不可用。官方随后解释称,此次中断并非由网络攻击引起,而是团队为了缓解本周披露的 React Server Components 行业漏洞,对 Web 应用程序防火墙(WAF)解析请求的方式进行了更改,从而意外导致了网络中断。该问题持续了数分钟,目前已完全解决,服务已恢复正常。
(Cloudflare Status)
目前该故障已经修复 。然而,截至目前,阿里巴巴和支付宝方面尚未就故障原因发布官方声明 。
React Server Components 曝出严重远程代码执行漏洞
React 团队于当地时间 12 月 3 日发布安全公告,确认 React Server Components (RSC) 协议中存在一个严重的远程代码执行漏洞(CVE-2025-55182),CVSS 评分高达 10.0。该漏洞由 Lachlan Davidson 发现并报告,涉及 react-server-dom-webpack、react-server-dom-parcel 及 react-server-dom-turbopack 的 19.0.0 至 19.2.0 版本。攻击者可通过向 Server Function 端点发送恶意构造的 HTTP 请求,利用反序列化过程中的缺陷在服务器上执行任意代码,且无需经过身份验证。即使应用未直接实现 Server Function 端点,只要支持 RSC 均可能受影响。目前 React 团队已发布 19.0.1、19.1.2 和 19.2.1 版本予以修复。
受此上游漏洞影响,Next.js 同步发布了安全公告(CVE-2025-66478)。所有使用 App Router 的 Next.js 15.x 和 16.x 版本,以及 14.3.0-canary.77 之后的测试版本均受到波及。Next.js 13.x、14.x 稳定版及 Pages Router 模式不受影响。Vercel 已发布 15.0.5、15.1.9、15.2.6、15.3.6、15.4.8、15.5.7 和 16.0.7 等修复版本,建议用户立即更新;使用受影响 canary 版本的用户应降级至 14.x 稳定版。此外,React Router、Waku、RedwoodJS 等生态框架也已发布相应修复指南。
(React Blog、Next.js Blog)
React 团队于当地时间 12 月 3 日发布安全公告,确认 React Server Components (RSC) 协议中存在一个严重的远程代码执行漏洞(CVE-2025-55182),CVSS 评分高达 10.0。该漏洞由 Lachlan Davidson 发现并报告,涉及 react-server-dom-webpack、react-server-dom-parcel 及 react-server-dom-turbopack 的 19.0.0 至 19.2.0 版本。攻击者可通过向 Server Function 端点发送恶意构造的 HTTP 请求,利用反序列化过程中的缺陷在服务器上执行任意代码,且无需经过身份验证。即使应用未直接实现 Server Function 端点,只要支持 RSC 均可能受影响。目前 React 团队已发布 19.0.1、19.1.2 和 19.2.1 版本予以修复。
受此上游漏洞影响,Next.js 同步发布了安全公告(CVE-2025-66478)。所有使用 App Router 的 Next.js 15.x 和 16.x 版本,以及 14.3.0-canary.77 之后的测试版本均受到波及。Next.js 13.x、14.x 稳定版及 Pages Router 模式不受影响。Vercel 已发布 15.0.5、15.1.9、15.2.6、15.3.6、15.4.8、15.5.7 和 16.0.7 等修复版本,建议用户立即更新;使用受影响 canary 版本的用户应降级至 14.x 稳定版。此外,React Router、Waku、RedwoodJS 等生态框架也已发布相应修复指南。
(React Blog、Next.js Blog)
Anthropic 宣布收购 JavaScript 运行时项目 Bun
Anthropic 于 12 月 2 日宣布收购热门 JavaScript 运行时项目 Bun,这是该公司成立以来的首笔收购。Bun 的创始人 Jarred Sumner 及其团队将加入 Anthropic,致力于进一步提升 AI 编程产品 Claude Code 的基础设施能力。Anthropic 明确承诺,收购后 Bun 将继续保持开源,维持现有的 MIT 许可证,并计划继续投入资源将其打造为顶级的 JavaScript/TypeScript 运行时、打包器和包管理器。
Anthropic 透露,Claude Code 自 2025 年 5 月向公众发布以来,仅用 6 个月时间便达到了 10 亿美元的年收入运行率。随着 Claude Code 的客户端逻辑日益复杂,Anthropic 自 2025 年 7 月起已在内部使用 Bun 来支撑其快速执行和基础设施需求。Bun 基于 Zig 语言和 JavaScriptCore 引擎构建,以高性能著称,被认为是支撑下一代 AI 编程代理的理想选择。
(Anthropic)
Anthropic 于 12 月 2 日宣布收购热门 JavaScript 运行时项目 Bun,这是该公司成立以来的首笔收购。Bun 的创始人 Jarred Sumner 及其团队将加入 Anthropic,致力于进一步提升 AI 编程产品 Claude Code 的基础设施能力。Anthropic 明确承诺,收购后 Bun 将继续保持开源,维持现有的 MIT 许可证,并计划继续投入资源将其打造为顶级的 JavaScript/TypeScript 运行时、打包器和包管理器。
Anthropic 透露,Claude Code 自 2025 年 5 月向公众发布以来,仅用 6 个月时间便达到了 10 亿美元的年收入运行率。随着 Claude Code 的客户端逻辑日益复杂,Anthropic 自 2025 年 7 月起已在内部使用 Bun 来支撑其快速执行和基础设施需求。Bun 基于 Zig 语言和 JavaScriptCore 引擎构建,以高性能著称,被认为是支撑下一代 AI 编程代理的理想选择。
(Anthropic)
Mistral AI 正式发布新一代模型家族 Mistral 3,包含旗舰级模型 Mistral Large 3 以及三款轻量级模型 Ministral 3(3B、8B、14B),所有模型均采用 Apache 2.0 许可协议开源。
Mistral Large 3 采用稀疏混合专家(MoE)架构,拥有 6750 亿总参数量(激活参数 410 亿),在 NVIDIA H200 GPU 集群上从头训练而成。该模型具备多模态图像理解能力和强大的多语言处理能力,支持超过 40 种自然语言。根据官方公布的基准测试,Mistral Large 3 在 MMMLU、AMC 数学竞赛题等多个维度上性能优于或持平 DeepSeek-3.1 (670B) 及 Kimi-K2 (1.2T);在 LMArena 排行榜的开源非推理模型类别中排名第二。
Ministral 3 系列则专为边缘计算和本地部署设计,提供基础版、指令微调版和推理版三种变体,同样支持图像理解,主打高性价比和低资源消耗。目前,Mistral 3 系列模型已上线 Hugging Face、Mistral AI Studio 以及 Amazon Bedrock、Azure 等主流云平台;Mistral Large 3 的推理版本也即将推出。
(Mistral AI)
DeepSeek 发布 V3.2 系列正式版模型,首创思考模式下的工具调用
DeepSeek 于 12 月 1 日正式发布 DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale 两款模型,并公开了技术报告。其中,DeepSeek-V3.2 旨在平衡推理能力与输出长度,适用于问答及通用智能体(Agent)场景。据官方测试,其在推理基准测试中达到 GPT-5 水平,略低于 Gemini-3.0-Pro,但计算开销显著低于 Kimi-K2-Thinking。该模型的一大突破是实现了「思考」与「工具使用」的融合,支持在思考模式下进行多轮工具调用;DeepSeek 为此构建了包含 1800 多个环境的大规模强化学习数据以提升模型泛化能力。
DeepSeek-V3.2-Speciale 则定位为探索能力边界的「长思考」增强版,结合了 DeepSeek-Math-V2 的定理证明能力,在 IMO 2025、IOI 2025 等多项国际竞赛中斩获金牌,达到人类选手顶尖水平。目前,标准版 V3.2 已在网页端、App 及 API 上线;Speciale 版本仅通过临时 API 开放至 2025 年 12 月 15 日,不支持工具调用且成本较高。此外,新版 API 已适配 Claude Code 的思考模式,但针对 Cline、RooCode 等非标准组件的适配仍需完善。
(DeepSeek)
DeepSeek 于 12 月 1 日正式发布 DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale 两款模型,并公开了技术报告。其中,DeepSeek-V3.2 旨在平衡推理能力与输出长度,适用于问答及通用智能体(Agent)场景。据官方测试,其在推理基准测试中达到 GPT-5 水平,略低于 Gemini-3.0-Pro,但计算开销显著低于 Kimi-K2-Thinking。该模型的一大突破是实现了「思考」与「工具使用」的融合,支持在思考模式下进行多轮工具调用;DeepSeek 为此构建了包含 1800 多个环境的大规模强化学习数据以提升模型泛化能力。
DeepSeek-V3.2-Speciale 则定位为探索能力边界的「长思考」增强版,结合了 DeepSeek-Math-V2 的定理证明能力,在 IMO 2025、IOI 2025 等多项国际竞赛中斩获金牌,达到人类选手顶尖水平。目前,标准版 V3.2 已在网页端、App 及 API 上线;Speciale 版本仅通过临时 API 开放至 2025 年 12 月 15 日,不支持工具调用且成本较高。此外,新版 API 已适配 Claude Code 的思考模式,但针对 Cline、RooCode 等非标准组件的适配仍需完善。
(DeepSeek)