一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

11:24 · 2025年12月23日 · 周二

一个小站的自留地

智谱发布了 GLM-4.6 模型，主打编程能力。官方称其代码能力对标 Claude Sonnet 4，是编程能力最强的开源模型。与此同时，该模型上下文窗口增加到了 200k。

智谱推出 GLM-4.7 模型

智谱（Z.ai）于 12 月 23 日正式发布并开源其最新旗舰模型 GLM-4.7。该模型专为 Agentic Coding 场景优化，引入了增强的「思考模式」（Thinking Mode），包含 Interleaved Thinking、Preserved Thinking 和 Turn-level Thinking 三种机制，以提升复杂指令遵循和长程任务的稳定性。

在 LMArena Code Arena 盲测中，GLM-4.7 位列开源及国内模型首位；部分基准测试（如 LiveCodeBench V6 和 AIME 2025）成绩超越 Claude Sonnet 4.5 和 GPT-5.1。此外，模型强调 Vibe Coding 能力，显著增强了对 UI 规范的理解，能生成更具现代感的网页和幻灯片。

目前 GLM-4.7 权重已在 Hugging Face 和 ModelScope 开源，并上线 Z.ai。

——————

MiniMax Agent 平台上线 M2.1 模型

MiniMax 同日宣布在其 Agent 平台上线 M2.1 模型。该模型旨在通过「可见的状态管理」（Visible State Management）提升复杂问题解决能力与用户信任度，支持实时展示文件处理、工具调用、任务进度及决策逻辑。

官方表示，M2.1 是专门针对 Agent 协作和复杂任务处理设计的迭代版本，目前用户已可在其官方在线平台进行体验。

（综合媒体报道）

15:44 · 2025年12月22日 · 周一

#推广

💎 特别优惠：
Cubence 是一家稳定高效的 AI 服务中转平台，为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务，有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣：在购买时使用优惠券 DING113CCH，可享受 10% 优惠折扣。
→ 立即访问

💎 特别优惠：
PackyCode 是一家稳定、高效的 API 中转服务商，提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠，使用此链接注册并在充值时填写优惠码 WITHCCH，可享受 9 折优惠
→ 立即访问

Cubence

CUBENCE - Claude Code & Codex Gateway

Professional AI API gateway for Claude Code and Codex

推广

23:51 · 2025年12月17日 · 周三

一个小站的自留地

Google 发布 Gemini 3：推理能力大幅提升 Google DeepMind CEO Demis Hassabis 于 11 月 19 日宣布正式发布 Gemini 3 系列模型。作为 Google 目前最智能的模型，Gemini 3 Pro 现已推出预览版，其在 LMArena 排行榜上以 1501 Elo 的高分位居榜首，并在 Humanity’s Last Exam（37.5%）、GPQA Diamond（91.9%）以及数学基准测试 MathArena Apex（23.4%）中刷新了行业记录。…

Google 发布 Gemini 3 Flash

Google DeepMind 于 12 月 18 日发布 Gemini 3 Flash 模型，主打「前沿智能」与「极低成本」的结合。该模型在 GPQA Diamond（博士级推理）测试中得分 90.4%，在 Humanity's Last Exam 中无工具辅助得分 33.7%。值得注意的是，Gemini 3 Flash 在 MMMU Pro 多模态理解（81.2%）和 SWE-bench Verified 代码能力（78%）测试中的表现均超越了旗舰级的 Gemini 3 Pro。

效率方面，新模型相比 Gemini 2.5 Pro 速度提升 3 倍，日常任务的词元（Token）消耗减少 30%。定价方面，输入价格为 0.5 美元 / 100 万词元（合人民币约 3.63 元），输出为 3 美元 / 100 万词元（合人民币约 21.79 元）。

即日起，开发者可通过 Google AI Studio、Vertex AI 及新平台 Google Antigravity 调用该模型；普通用户可在 Gemini App（已取代 2.5 Flash 成为默认模型）及 Google 搜索的 AI 模式中免费体验。

（综合媒体报道）

14:03 · 2025年12月17日 · 周三

一个小站的自留地

Anthropic 宣布推出 Claude Opus 4.5。其 API 定价是输入 5 美元 / 每百万 tokens、输出 25 美元 / 每百万 tokens。

据未经证实的消息，Anthropic 即将发布 Claude 4.7 系列模型。

02:30 · 2025年12月17日 · 周三

一个小站的自留地

OpenAI 发布 GPT-5.2 模型系列 OpenAI 今日正式发布 GPT-5.2 模型系列，包含 Instant、Thinking 和 Pro 三个版本。其中 Instant 主打快速响应，Thinking 擅长深度推理与编程，Pro 则专注于解决高难度任务。在衡量真实工作能力的 GDPval 测试中，GPT-5.2 Thinking 取得了 70.9% 的胜率，成为首个在 44 种职业知识工作任务上达到或超过人类专家水平的模型；在抽象推理测试 ARC-AGI-2 中，其得分从前代的 17.6%…

OpenAI 推出新版 ChatGPT 图像生成模型 GPT-Image 1.5

OpenAI 于 12 月 16 日宣布推出新版 ChatGPT 图像生成功能，由全新的旗舰模型 GPT-Image 1.5 驱动。新版本在生成速度上最高提升 4 倍，并显著增强了指令遵循能力、编辑精度和画面细节的一致性。

（OpenAI）

06:50 · 2025年12月12日 · 周五

一个小站的自留地

据市场消息，OpenAI 预计于下周发布 GPT-5.2。知情人士称，GPT-5.2 应该能弥补谷歌上个月发布 Gemini 3 所拉开的差距。

OpenAI 发布 GPT-5.2 模型系列

OpenAI 今日正式发布 GPT-5.2 模型系列，包含 Instant、Thinking 和 Pro 三个版本。其中 Instant 主打快速响应，Thinking 擅长深度推理与编程，Pro 则专注于解决高难度任务。

在衡量真实工作能力的 GDPval 测试中，GPT-5.2 Thinking 取得了 70.9% 的胜率，成为首个在 44 种职业知识工作任务上达到或超过人类专家水平的模型；在抽象推理测试 ARC-AGI-2 中，其得分从前代的 17.6% 跃升至 52.9%；AIME 2025 数学竞赛更是取得 100% 满分。

此外，新模型在长文档分析（256k 上下文）、多模态空间理解及代码生成（SWE-Bench Pro 准确率 55.6%）方面均有显著提升，幻觉率降低约 30%。

目前 GPT-5.2 已向 ChatGPT 付费用户开放，API 同步上线，价格较 GPT-5.1 上涨约 40%，但官方称因效率提升综合成本反而更低。

（综合媒体报道）

19:15 · 2025年12月11日 · 周四

一个小站的自留地

Meta 开源 Llama 4 系列模型，首次采用 MoE 架构并支持千万级上下文 Meta 于 2025 年 4 月 5 日发布并开源了其最新的 Llama 4 系列人工智能模型，标志着 Llama 系列首次采用混合专家 (Mixture of Experts, MoE) 架构并原生支持多模态能力。此次发布了 Llama 4 Scout 和 Llama 4 Maverick 两款模型，同时预告了更大规模的 Llama 4 Behemoth 模型。 Llama 4 Scout 是一款拥有 16 个专家、170…

Meta 拟推迟下一代模型发布并转向闭源策略

据 CNBC 和 Digitimes 报道，Meta 计划将代号为「Avocado」的下一代旗舰 AI 模型推迟至 2026 年第一季度发布，并放弃此前坚持的开源策略，转而开发闭源的专有模型。这一战略调整伴随着 Meta AI 部门的重大重组：新模型将由首席 AI 官 Alexandr Wang 领导的 Meta 超级智能实验室（MSL）加强控制开发；基础 AI 研究（FAIR）实验室近期遭遇裁员，著名科学家 Yann LeCun 已离职，长期产品高管 Chris Cox 也退出了 AI 领导团队。

报道称，促成这一转变的因素包括 Llama 4 系列市场反应冷淡、开源模型被 DeepSeek 等竞争对手利用的安全担忧，以及公司急需通过 API 或订阅服务实现 AI 投资回报的商业压力。

(综合媒体报道）

10:58 · 2025年12月6日 · 周六

一个小站的自留地

OpenAI 发布了 GPT-5.1 系列模型。 GPT-5.1 Instant ：最常用的模型，语气更亲切、更智能，更善于遵循指令。 GPT-5.1 Thinking ：先进的推理模型，更易于理解，处理简单任务速度更快，处理复杂任务更具持久力。 GPT-5.1 Pro：即将上线本周晚些时候，这两款模型也会登陆API。其中，GPT-5.1 Thinking将会以「GPT-5.1」的名称发布，而GPT-5.1 Instant则是「gpt-5.1-chat-latest」，两者均具备自适应推理能力。

据市场消息，OpenAI 预计于下周发布 GPT-5.2。知情人士称，GPT-5.2 应该能弥补谷歌上个月发布 Gemini 3 所拉开的差距。

18:41 · 2025年12月5日 · 周五

一个小站的自留地

React Server Components 曝出严重远程代码执行漏洞 React 团队于当地时间 12 月 3 日发布安全公告，确认 React Server Components (RSC) 协议中存在一个严重的远程代码执行漏洞（CVE-2025-55182），CVSS 评分高达 10.0。该漏洞由 Lachlan Davidson 发现并报告，涉及 react-server-dom-webpack、react-server-dom-parcel 及 react-server-dom-turbopack…

Cloudflare 配置变更导致短暂服务中断

12 月 5 日，Cloudflare 确认其网络服务及 Dashboard、API 出现短暂不可用。官方随后解释称，此次中断并非由网络攻击引起，而是团队为了缓解本周披露的 React Server Components 行业漏洞，对 Web 应用程序防火墙（WAF）解析请求的方式进行了更改，从而意外导致了网络中断。该问题持续了数分钟，目前已完全解决，服务已恢复正常。

（Cloudflare Status）

01:48 · 2025年12月5日 · 周五

12 月 4 日晚，支付宝出现服务异常，影响包括淘宝、闲鱼、1688 和饿了么在内的平台。许多用户报告说，他们在完成支付宝付款后，订单状态仍然显示为未付款。此事件导致“支付宝崩了”和“淘宝崩了”等话题登上社交媒体热搜。问题发生后，许多用户涌入客服渠道，导致人工客服排队数量激增。

目前该故障已经修复。然而，截至目前，阿里巴巴和支付宝方面尚未就故障原因发布官方声明。

23:49 · 2025年12月4日 · 周四

一个小站的自留地

Docker Desktop 修复严重安全漏洞 Docker 近日发布紧急安全更新，修复了影响 Windows 10/11 和 macOS 版 Docker Desktop 的高危安全漏洞。该漏洞编号为 CVE-2025-9074，CVSS 评分高达 9.3 分，已在 Docker Desktop v4.44.3 版中得到修复。该漏洞由安全研究人员 Felix Boulet 发现，与容器无需身份验证即可连接到 Docker Engine API 有关。恶意容器可利用此漏洞直接穿透虚拟化防御，…

React Server Components 曝出严重远程代码执行漏洞

React 团队于当地时间 12 月 3 日发布安全公告，确认 React Server Components (RSC) 协议中存在一个严重的远程代码执行漏洞（CVE-2025-55182），CVSS 评分高达 10.0。该漏洞由 Lachlan Davidson 发现并报告，涉及 react-server-dom-webpack、react-server-dom-parcel 及 react-server-dom-turbopack 的 19.0.0 至 19.2.0 版本。攻击者可通过向 Server Function 端点发送恶意构造的 HTTP 请求，利用反序列化过程中的缺陷在服务器上执行任意代码，且无需经过身份验证。即使应用未直接实现 Server Function 端点，只要支持 RSC 均可能受影响。目前 React 团队已发布 19.0.1、19.1.2 和 19.2.1 版本予以修复。

受此上游漏洞影响，Next.js 同步发布了安全公告（CVE-2025-66478）。所有使用 App Router 的 Next.js 15.x 和 16.x 版本，以及 14.3.0-canary.77 之后的测试版本均受到波及。Next.js 13.x、14.x 稳定版及 Pages Router 模式不受影响。Vercel 已发布 15.0.5、15.1.9、15.2.6、15.3.6、15.4.8、15.5.7 和 16.0.7 等修复版本，建议用户立即更新；使用受影响 canary 版本的用户应降级至 14.x 稳定版。此外，React Router、Waku、RedwoodJS 等生态框架也已发布相应修复指南。

（React Blog、Next.js Blog）

08:44 · 2025年12月3日 · 周三

一个小站的自留地

前端开发框架 Remix 的开发团队宣布了两个重要发展方向： React Router v7 已将 Remix 的核心功能完全整合进来，包括服务端渲染、代码分割和实验性的 React Server Components (RSC) 支持。这为现有的数百万 React Router 项目提供了升级到现代全栈开发的平滑路径。 RSC 是这次更新的亮点，它允许开发者在服务器端渲染组件，然后将结果传送到客户端，实现了更高效的数据加载和更好的性能表现。 Remix v3 将放弃 React 转而基于 Preact…

Anthropic 宣布收购 JavaScript 运行时项目 Bun

Anthropic 于 12 月 2 日宣布收购热门 JavaScript 运行时项目 Bun，这是该公司成立以来的首笔收购。Bun 的创始人 Jarred Sumner 及其团队将加入 Anthropic，致力于进一步提升 AI 编程产品 Claude Code 的基础设施能力。Anthropic 明确承诺，收购后 Bun 将继续保持开源，维持现有的 MIT 许可证，并计划继续投入资源将其打造为顶级的 JavaScript/TypeScript 运行时、打包器和包管理器。

Anthropic 透露，Claude Code 自 2025 年 5 月向公众发布以来，仅用 6 个月时间便达到了 10 亿美元的年收入运行率。随着 Claude Code 的客户端逻辑日益复杂，Anthropic 自 2025 年 7 月起已在内部使用 Bun 来支撑其快速执行和基础设施需求。Bun 基于 Zig 语言和 JavaScriptCore 引擎构建，以高性能著称，被认为是支撑下一代 AI 编程代理的理想选择。

（Anthropic）

01:36 · 2025年12月3日 · 周三

一个小站的自留地

Mistral AI 发布 Mistral Large 2，123B 大小，128k 上下文，支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的数十种语言。性能方面，官方宣称表现远超之前的 Mistral Large，与 GPT-4o、Claude 3 Opus 和 Llama 3.1 405B 相媲美。开源地址: https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

Mistral AI 发布 Mistral 3 系列模型

Mistral AI 正式发布新一代模型家族 Mistral 3，包含旗舰级模型 Mistral Large 3 以及三款轻量级模型 Ministral 3（3B、8B、14B），所有模型均采用 Apache 2.0 许可协议开源。

Mistral Large 3 采用稀疏混合专家（MoE）架构，拥有 6750 亿总参数量（激活参数 410 亿），在 NVIDIA H200 GPU 集群上从头训练而成。该模型具备多模态图像理解能力和强大的多语言处理能力，支持超过 40 种自然语言。根据官方公布的基准测试，Mistral Large 3 在 MMMLU、AMC 数学竞赛题等多个维度上性能优于或持平 DeepSeek-3.1 (670B) 及 Kimi-K2 (1.2T)；在 LMArena 排行榜的开源非推理模型类别中排名第二。

Ministral 3 系列则专为边缘计算和本地部署设计，提供基础版、指令微调版和推理版三种变体，同样支持图像理解，主打高性价比和低资源消耗。目前，Mistral 3 系列模型已上线 Hugging Face、Mistral AI Studio 以及 Amazon Bedrock、Azure 等主流云平台；Mistral Large 3 的推理版本也即将推出。

（Mistral AI）

13:42 · 2025年12月1日 · 周一

一个小站的自留地

深度求索 22 日晚发布消息，DeepSeek 线上模型已升级，当前版本号 DeepSeek-V3.1-Terminus。该模型提升了编程智能体能力，修复了部分字符输出异常的问题。

DeepSeek 发布 V3.2 系列正式版模型，首创思考模式下的工具调用

DeepSeek 于 12 月 1 日正式发布 DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale 两款模型，并公开了技术报告。其中，DeepSeek-V3.2 旨在平衡推理能力与输出长度，适用于问答及通用智能体（Agent）场景。据官方测试，其在推理基准测试中达到 GPT-5 水平，略低于 Gemini-3.0-Pro，但计算开销显著低于 Kimi-K2-Thinking。该模型的一大突破是实现了「思考」与「工具使用」的融合，支持在思考模式下进行多轮工具调用；DeepSeek 为此构建了包含 1800 多个环境的大规模强化学习数据以提升模型泛化能力。

DeepSeek-V3.2-Speciale 则定位为探索能力边界的「长思考」增强版，结合了 DeepSeek-Math-V2 的定理证明能力，在 IMO 2025、IOI 2025 等多项国际竞赛中斩获金牌，达到人类选手顶尖水平。目前，标准版 V3.2 已在网页端、App 及 API 上线；Speciale 版本仅通过临时 API 开放至 2025 年 12 月 15 日，不支持工具调用且成本较高。此外，新版 API 已适配 Claude Code 的思考模式，但针对 Cline、RooCode 等非标准组件的适配仍需完善。

（DeepSeek）

08:03 · 2025年11月25日 · 周二

一个小站的自留地

Anthropic 宣布推出 Claude Code 的原生安装程序。相比使用 NPM 安装，原生安装程序更简单、更稳定，并且不再需要 Node.js。这是 macOS、Linux 和 Windows 上安装 Claude Code 的最新推荐方式。 —————— Homebrew (macOS, Linux): brew install --cask claude-code macOS, Linux, WSL: curl -fsSL https://claude.ai/install.sh |…

Anthropic 宣布推出 Claude Opus 4.5。

其 API 定价是输入 5 美元 / 每百万 tokens、输出 25 美元 / 每百万 tokens。

20:08 · 2025年11月22日 · 周六

17:46 · 2025年11月20日 · 周四

一个小站的自留地

Google 发布 Gemini 3：推理能力大幅提升 Google DeepMind CEO Demis Hassabis 于 11 月 19 日宣布正式发布 Gemini 3 系列模型。作为 Google 目前最智能的模型，Gemini 3 Pro 现已推出预览版，其在 LMArena 排行榜上以 1501 Elo 的高分位居榜首，并在 Humanity’s Last Exam（37.5%）、GPQA Diamond（91.9%）以及数学基准测试 MathArena Apex（23.4%）中刷新了行业记录。…

Google 发布 Gemini 3 Pro Image Preview：引入推理能力的图像生成模型

Google 于 11 月 20 日发布 Gemini 3 Pro Image Preview 模型。作为 Gemini 3 系列的一员，该模型引入了推理能力，能够在响应前对思路进行推理，从而在复杂和多轮图像生成及编辑任务中实现更高的准确性和图像质量。Gemini 3 Pro Image 支持最高 4K 分辨率输出，增强了多语言长文本的渲染能力，并集成了 Google 搜索功能（Grounding with Google Search）以提供更准确、实时的知识支持。

该模型支持文本和图像输入，输出包含图像和文本，输入上下文限制为 64k 词元（Token），输出限制为 32k 词元。开发者目前可通过 Vertex AI Studio 和 Google Gen AI SDK 访问该预览版模型。

（Google Cloud）

23:45 · 2025年11月19日 · 周三

一个小站的自留地

Cloudflare 全球网络遭遇故障，部分服务已恢复据 Cloudflare System Status 页面显示，协调世界时（UTC）2025 年 11 月 18 日 11 时 48 分（北京时间 19 时 48 分），Cloudflare 遭遇内部服务降级，导致全球范围内的部分服务出现间歇性中断。经过排查，官方确认了故障原因并开始实施修复。在此过程中，为了缓解问题，官方曾短暂禁用伦敦地区的 WARP 访问权限。截至 UTC 13 时 13 分（北京时间 21 时 13 分），Cloudflare…

Cloudflare 发布 18 日全球网络严重故障事故分析报告

Cloudflare 官方博客于 11 月 19 日发布事后分析报告，详细披露了前一日导致全球互联网大范围瘫痪的技术细节。故障始于 UTC 时间 11 月 18 日 11:20（北京时间 19:20），持续至 17:06 全部系统恢复正常。期间，核心 CDN 与安全服务、Workers KV、Access 以及验证码服务 Turnstile 均出现严重中断，导致包括 ChatGPT 在内的众多依赖其基础设施的网站无法访问，用户普遍遭遇 HTTP 5xx 错误。

官方明确指出，此次事故并非由 DDoS 攻击或其他恶意活动引起，而是源于内部 ClickHouse 数据库的一次权限管理变更。该变更旨在显化用户对底层基础表的访问权限，却意外导致机器人管理系统（Bot Management）的元数据查询返回了重复条目。这使得自动生成的威胁防御「特征配置文件」大小瞬间翻倍。

由于核心代理服务（代号 FL2）为了性能考虑，采用了预分配内存的设计，并对特征数量设定了硬性上限。当体积异常的配置文件推送到全球边缘节点时，负责流量路由的 Rust 代码使用了 `.unwrap()` 方法来处理结果。该方法在遇到超出预期的错误状态（即文件大小超出限制）时，直接导致了进程崩溃（Panic），而非抛出可控的错误，最终引发了连锁反应。

在故障处置初期，由于 Cloudflare 托管在外部平台的状态页（Status Page）同时也因流量过载而瘫痪，加之故障特征与大规模网络攻击相似，运维团队曾一度误判。最终，团队通过停止生成错误文件并手动回滚至已知良好的旧版本文件恢复了核心流量。Cloudflare 表示后续将强化对内部生成配置文件的输入验证（将其视为不可信输入），增加全局终止开关，并全面审查核心模块的错误处理逻辑以防止类似单点故障再次发生。

（Cloudflare Blog）

Before

After