一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

17:50 · 2026年4月3日 · 周五

#推广

💎 特别优惠：
Cubence 是一家稳定高效的 AI 服务中转平台，为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务，有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣：在购买时使用优惠券 DING113CCH，可享受 10% 优惠折扣。
→ 立即访问

💎 特别优惠：
PackyCode 是一家稳定、高效的 API 中转服务商，提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠，使用此链接注册并在充值时填写优惠码 WITHCCH，可享受 9 折优惠
→ 立即访问

💎 特别优惠：
YesCode 是一家低调务实的 AI API 中转服务商，专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务，以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
→ 立即访问

💎 特别优惠：
AIGoCode 是一个集成了 Claude Code、Codex 以及 Gemini 最新模型的一站式平台，为你提供稳定、高效且高性价比的 AI 编程服务。提供灵活的订阅计划，可包月可套餐，零封号风险，国内直连，无需魔法，超大积分池，极速响应。
AIGoCode 为 CCH 的用户提供了特别福利，通过此链接注册的用户首次充值可以获得额外 10% 奖励额度
→ 立即访问

💎 特别优惠：
感谢 AICodeMirror 对本项目的赞助！AICodeMirror 提供 Claude Code / Codex / Gemini CLI 官方高稳定性中转服务，支持企业级并发、快速开票、7×24 小时专属技术支持。Claude Code / Codex / Gemini 官方渠道价格低至原价的 38% / 6% / 9%，充值还有额外折扣！针对 claude-code-hub 用户，AICodeMirror 特别推出福利：通过下方链接注册，首充立享 8 折优惠；企业客户更可享受最高 7.5 折折上折。
→ 立即访问

推广

01:24 · 2026年4月3日 · 周五

一个小站的自留地

谷歌发布轻量级开源大语言模型 Gemma 3 270M Gemma 3 是 Google 推出的轻量级多模态开源大模型家族，延续 Gemini 技术，支持文本与图像输入（最高 128K 上下文），覆盖 140+ 语言，适用于问答、摘要、推理等任务。新发布的 Gemma 3 270M 在端侧推理场景，取得了超越 Qwen3 0.5B 的成绩。（Google）

Google DeepMind 发布 Gemma 4 开源模型家族，采用 Apache 2.0 许可证

4 月 2 日，Google DeepMind 正式发布新一代开源模型家族 Gemma 4，这是目前该系列中能力最强的版本。Gemma 4 基于与 Gemini 3 相同的研究技术构建，主打高级推理和智能体 (agentic) 工作流，在同参数量级模型中实现了领先的性能表现。

Gemma 4 共推出四个尺寸：Effective 2B (E2B)、Effective 4B (E4B)、26B 混合专家模型 (MoE) 和 31B 稠密模型 (Dense)。其中 31B 模型在 Arena AI 文本排行榜上位列开源模型第 3 名，26B 模型排名第 6，二者均超越了参数量达其 20 倍的竞争模型。26B MoE 模型在推理时仅激活 38 亿参数，侧重低延迟响应；31B Dense 模型则追求最高输出质量，适合作为微调基础。

在端侧部署方面，E2B 和 E4B 模型专为移动设备和物联网场景设计，可在手机、Raspberry Pi、NVIDIA Jetson Orin Nano 等设备上完全离线运行，实现接近零延迟的推理。Android 开发者可通过 AICore Developer Preview 立即开始原型开发，实现与未来 Gemini Nano 4 的前向兼容。

核心能力方面，Gemma 4 支持多步规划与深度逻辑推理、原生函数调用与结构化 JSON 输出、高质量离线代码生成，以及视频、图像、音频等多模态输入（音频输入仅限 E2B 和 E4B）。上下文窗口方面，边缘模型支持 128K 词元，大模型支持最高 256K 词元。此外，Gemma 4 原生支持超过 140 种语言。

值得关注的是，Gemma 4 采用了商业友好的 Apache 2.0 开源许可证。

（Google DeepMind）

18:56 · 2026年3月31日 · 周二

一个小站的自留地

Anthropic 宣布调整 Claude 免费版、Pro 版和 Max 版订阅用户的会话限制机制。虽然每周总额度保持不变，但在工作日高峰时段（太平洋时间 5:00–11:00，对应北京时间 21:00 至次日 03:00），用户的 5 小时会话配额将以更快速度消耗。 Anthropic 产品负责人 Thariq 表示，公司已通过效率优化抵消部分影响，但仍有约 7% 的用户会触及此前不会遇到的会话限制，尤其是 Pro 版用户。他建议用户将占用大量 token 的后台任务转移到非高峰时段运行，以延长会话限制。此举旨在应对…

Claude Code 源码因 Source Map 配置疏漏再次泄露

3 月 31 日，有开发者发现 Anthropic 旗下 AI 编程智能体 Claude Code 的 v2.1.88 版本 NPM 发布包中包含了完整的 Source Map 文件 (cli.js.map)。该文件的 sourcesContent 字段保留了全部 TypeScript 源码，可通过简单脚本提取还原。

这是 Claude Code 第二次因相同原因发生源码泄露。2025 年 2 月 Claude Code 作为研究预览版首次发布时，就曾因 NPM 包中附带 Source Map 文件而导致源码外泄。Anthropic 当时迅速推送更新移除了 Source Map，并从 NPM Registry 下架了所有受影响的旧版本。此次事件发生后，Anthropic 启动了紧急撤包流程，NPM 上显示的最新版本已回退至 2.1.87。

与一年前相比，此次泄露的源码展示了大量新模块，包括多 Agent 协调模块 (coordinator/)、内部代号为「KAIROS」的助手模式 (assistant/)、语音交互模块 (voice/)、插件和技能系统 (plugins/、skills/)，以及一个名为「buddy」的 AI 伴侣 UI 模块。目录结构还包含远程会话 (remote/)、Vim 模式 (vim/) 等组件，呈现出 Claude Code 从单一 CLI 工具向复合 Agent 平台演进的工程全貌。

值得注意的是，这并非 Anthropic 近期唯一的信息泄露事件。

3 月 26 日，Fortune 杂志报道称，Anthropic 因内容管理系统 (CMS) 配置错误，导致一份未发布的博客草稿被公开发现，其中提及了名为 Claude Mythos (亦称 Capybara) 的新模型。Anthropic 随后承认正在开发和测试该模型，称其代表了 AI 性能的「阶梯式跃升」(step change)，是该公司迄今为止构建的最强模型。

（老冯云数）（源码备份）

12:24 · 2026年3月31日 · 周二

一个小站的自留地

LiteLLM 仓库遭受供应链攻击 LLM 代理工具 LiteLLM 遭受名为 TeamPCP 的威胁行为者发起的供应链攻击。攻击者在 Python 软件包索引 (Python Package Index, PyPI) 发布了包含信息窃取程序的 1.82.7 和 1.82.8 恶意版本，上述版本在暴露约 3 小时后被官方隔离。攻击者首先利用外泄的个人访问令牌 (Personal Access Token, PAT) ，在开发商 BerriAI 的 GitHub 仓库中推送了恶意的 GitHub Actions…

axios 遭复杂供应链攻击

2026 年 3 月 31 日，安全机构 StepSecurity 发现，广泛使用的 JavaScript HTTP 客户端库 axios 在 npm 上被发布了两个恶意版本 (1.14.1 和 0.30.4)，均通过被盗的首席维护者凭据发布，绕过了项目正常的 CI/CD 流程。

攻击者将维护者账号邮箱篡改为一个 ProtonMail 匿名地址，并利用该账号的长期有效 npm 访问令牌通过命令行手动发布。在此之前，攻击者已从另一个一次性账号预先发布了恶意依赖 plain-crypto-js@4.2.1，两个账号均使用 ProtonMail 注册，呈现一致的操作特征。

恶意版本相比安全版本，唯一的变化是在依赖列表中新增了 plain-crypto-js@4.2.1。当开发者执行 npm install 时，npm 会自动解析并安装该依赖，随即触发其 postinstall 脚本启动木马投放程序。

恶意软件采用了多种高级规避技术：运行时解混淆以隐藏真实意图，动态加载 fs、os、execSync 等敏感模块以绕过静态扫描，可直接在宿主系统上执行解码后的 shell 命令，并将载荷文件部署至系统临时目录和 Windows ProgramData 目录等敏感位置，执行完毕后自动删除或重命名自身文件以对抗取证分析。

axios 每周下载量达数千万次 (Socket 统计约 8300 万次)，是 JavaScript 生态中使用最广泛的 HTTP 客户端之一，此次事件的潜在波及面极大。

开发者应立即排查项目依赖，可通过以下命令检查是否受到影响：

npm ls axios plain-crypto-js

若确认安装了受影响版本，应视系统为已被入侵，将 axios 固定至安全版本 (1.14.0 或 0.30.3)，轮换受影响机器上的所有密钥、API 密钥和凭据，并检查网络日志中是否存在指向已知 C2 域名或 IP 地址的出站连接。

（综合媒体报道）

09:38 · 2026年3月31日 · 周二

一个小站的自留地

继旗舰模型 Qwen3.5-397B-A17B 首次开源后，Qwen 团队新增发布三款模型： Qwen3.5-122B-A10B、 Qwen3.5-27B (Dense) 与 Qwen3.5-35B-A3B 。上述模型均已在 GitHub、Hugging Face 及魔搭社区提供下载，供研究与微调使用。同时，与 Qwen3.5-35B-A3B 对齐的托管生产版本 Qwen3.5-Flash API 已正式上线阿里云百炼平台。该版本默认支持 100 万词元 (Token) 的上下文长度，并内置了官方原生…

阿里推出 Qwen3.6 Plus Preview 和 Qwen3.5-Omni 系列大模型

阿里 Qwen 团队在 OpenRouter 平台正式上线了 Qwen3.6 Plus Preview 模型。该模型作为 Qwen Plus 系列的下一代演进版本，采用先进的混合架构以提升效率与可扩展性。其支持高达 1,000,000 token 的上下文窗口以及最大 65,536 tokens 的输出。

模型预览期间，开发者可以在 OpenRouter、OpenCode 和 Kilo Code 等平台和工具免费调用该模型。

与此同时，阿里 Qwen 正式发布了新一代全模态大模型 Qwen3.5-Omni 系列，包含 Plus、Flash 和 Light 三种尺寸。该模型原生实现了对文本、图片、音频及音视频的统一理解，同时支持超长音视频输入、音色克隆、智能语义打断以及 113 种语种和方言的语音交互。

目前，企业及开发者已可通过 Qwen Chat、阿里云百炼 API 进行体验和集成。

（橘鸦 Juya）

01:58 · 2026年3月31日 · 周二

一个小站的自留地

Gemini 将成为 Apple Intelligence 基础模型当地时间 2026 年 1 月 12 日，Apple 与 Google 发布联合声明，确认双方达成多年期合作：下一代 Apple 基础模型将基于 Google 的 Gemini 模型与云技术构建，并用于驱动未来 Apple Intelligence 功能，包括今年上线更个性化的 Siri。 Reuters 报道称，Apple 将在今年晚些时候推出改版后的 Siri，并引入 Gemini 模型能力。这也让 Gemini 获得新的系统级分发入口：Apple…

Apple 智能凌晨意外推送国行机型，功能已被撤回

3 月 31 日凌晨，部分国行 iPhone 用户在升级至 iOS 26.4 后，发现系统设置中出现了「Apple 智能与 Siri」入口，一度引发苹果 AI 功能正在进行灰度测试的猜测。

彭博社记者 Mark Gurman 随后确认，此次推送属于意外，苹果目前尚未获得中国监管部门的批准，也没有即将上线的计划，相关功能已被撤回。Gurman 还指出，苹果不会在没有正式公告的情况下在中国推出该功能，也不会选择在当地时间凌晨上线。

在 Apple 智能短暂可用期间，用户实测发现该功能并未完全开发就绪：「视觉智能」依旧使用 Google 搜索方案，「GPT 扩展」按钮虽存在但无法激活。不过，实时翻译、照片消除、协作工具、智绘表情 (Genmoji) 和图乐园 (Image Playground) 等大部分功能可正常使用。

值得注意的是，此前有媒体报道称 Apple 智能使用了百度文心大模型，但这是一个误传——相关截图中的回答实际来自 Siri 调用百度搜索的结果，旧版 Siri 同样能获取到相同答案。根据此前的报道，Apple 智能在中国将依托阿里巴巴的通义千问 (Qwen) 模型来满足监管要求。

Gurman 今年早些时候还曾透露，苹果计划同时与阿里巴巴和百度合作推进中国市场的 AI 布局：阿里巴巴负责调整和审核苹果端侧模型的内容以符合中国法规，百度则为「视觉智能」功能提供支持。

中国目前仍是全球最后一个尚未上线 Apple 智能的主要市场。截至目前，苹果官方尚未对此次事件做出正式回应。

19:28 · 2026年3月27日 · 周五

一个小站的自留地

智谱上线 GLM-5 系列模型智谱发布了新一代旗舰基座模型 GLM-5 及其编程强化版 GLM-5-Code。GLM-5 面向 Agentic Engineering 打造，面向复杂系统工程与长程 Agent 任务；GLM-5-Code 则针对真实编程与 Coding Agent 场景强化了工具调用稳定性与前端生成准确性。在规格方面，文档给出的信息显示，两款模型均为文本输入、文本输出；上下文窗口为 200K，最大输出为 128K 词元 (Token)。在训练与架构层面， GLM-5 基座参数规模从…

GLM-5.1 现已面向 GLM Coding Plan 全部用户 (Lite/Pro/Max) 开放。

11:23 · 2026年3月27日 · 周五

Anthropic 宣布调整 Claude 免费版、Pro 版和 Max 版订阅用户的会话限制机制。虽然每周总额度保持不变，但在工作日高峰时段（太平洋时间 5:00–11:00，对应北京时间 21:00 至次日 03:00），用户的 5 小时会话配额将以更快速度消耗。

Anthropic 产品负责人 Thariq 表示，公司已通过效率优化抵消部分影响，但仍有约 7% 的用户会触及此前不会遇到的会话限制，尤其是 Pro 版用户。他建议用户将占用大量 token 的后台任务转移到非高峰时段运行，以延长会话限制。此举旨在应对 Claude 日益增长的需求，通过时段差异化管理平衡服务负载。

——————

OpenAI 宣布为 Codex 推出插件功能，支持与 Slack、Figma、Notion、Gmail、Google Drive 等主流工具的开箱即用集成。插件可将应用集成、技能（skills）和 MCP 服务器配置打包为可安装的复用单元，覆盖代码编写前的规划、研究、协调以及后续工作流。

与此同时，OpenAI 产品负责人 Tibo 宣布重置 Codex 所有订阅套餐的使用限额，让用户可无限制使用 Codex 构建项目，以便体验刚推出的插件功能。Tibo 表示限额重置将持续一段时间，鼓励用户充分测试新推出的插件生态。

23:27 · 2026年3月25日 · 周三

API 协作平台 Apifox 遭供应链攻击，所有桌面端用户 SSH 密钥与凭证面临泄露风险

2026 年 3 月 4 日至 3 月 22 日期间，API 协作平台 Apifox 的公网 SaaS 版桌面客户端遭受供应链攻击。攻击者篡改了托管在 CDN 上的外部 JavaScript 文件，在合法的事件追踪代码末尾追加了约 42 KB 的恶意载荷。

恶意代码会采集机器指纹 (MAC 地址、CPU 型号、主机名等信息的 SHA-256 哈希值) 并窃取 Apifox 用户的访问令牌 (Access Token) ，随后通过 RSA-2048 加密将敏感信息发送至命令与控制 (Command and Control, C2) 服务器 apifox[.]it[.]com。C2 服务器返回经 RSA 加密的 Stage-1 加载器，动态生成随机路径的 Stage-2 攻击载荷。Stage-2 脚本通过 Node.js API 递归读取用户设备上的高敏感文件，包括：

- ~/.ssh/ 目录下的全部 SSH 密钥
- ~/.git-credentials 中的 Git 凭证
- ~/.zsh_history 和 ~/.bash_history 中的命令行历史
- ~/.kube/ 下的 Kubernetes 集群配置
- ~/.npmrc 中的 npm 注册表令牌

攻击者在入口文件中部署了精密的混淆与加密机制，但在服务端下发的实际攻击载荷中却保留了完整的中文开发注释。更关键的失误是将 RSA-2048 私钥硬编码在客户端代码中，使得安全研究人员得以解密全部 C2 通信并完整还原攻击链。

该恶意软件本质上是一个基于 eval() 的完整远程代码执行 (Remote Code Execution, RCE) 平台。C2 服务器在每次轮询 (间隔 30 分钟至 3 小时) 中均可下发完全不同的任意 JavaScript 代码。目前捕获的 Stage-2 载荷仅为前期侦察与凭据采集阶段，攻击者完全有能力根据已回传的机器指纹、Apifox 邮箱 (判断所属公司) 、SSH 密钥 (判断可达服务器) 、Kubernetes 配置 (判断集群规模) 等信息筛选高价值目标，并为其量身定制后续攻击载荷——包括但不限于独立后门植入、横向移动、源代码窃取、生产环境接管以及利用窃取的 npm 或 Git 令牌发起二次供应链投毒。

Apifox 官方已于 3 月 25 日发布紧急修复版本 2.8.19，彻底废除了在线动态加载机制，改为本地内置打包。官方强烈建议受影响用户立即升级客户端、全面轮换 SSH 密钥、吊销 Git 个人访问令牌 (Personal Access Token, PAT) 、重置 Kubernetes 集群凭证与 npm 注册表令牌，并在 hosts 文件中阻断恶意域名 apifox.it.com。私有化部署版与 SaaS Web 版用户不受此次事件影响。

Apifox 现有用户可通过以下方式观察是否被投毒事件影响：
- 检查 Electron localStorage 中是否存在 _rl_headers、_rl_mc 键
- 监控网络流量中是否有到 apifox[.]it[.]com 的历史请求流量
- 检查历史 HTTP 请求头中是否包含 af_uuid、af_os 等异常字段

(Apifox、白帽酱)

18:08 · 2026年3月25日 · 周三

LiteLLM 仓库遭受供应链攻击

LLM 代理工具 LiteLLM 遭受名为 TeamPCP 的威胁行为者发起的供应链攻击。攻击者在 Python 软件包索引 (Python Package Index, PyPI) 发布了包含信息窃取程序的 1.82.7 和 1.82.8 恶意版本，上述版本在暴露约 3 小时后被官方隔离。

攻击者首先利用外泄的个人访问令牌 (Personal Access Token, PAT) ，在开发商 BerriAI 的 GitHub 仓库中推送了恶意的 GitHub Actions 工作流。该工作流不仅收集并加密了项目的所有环境机密，还成功窃取了用于发布软件包的凭证。随后植入的恶意程序试图在后台窃取开发者的 SSH 密钥、云服务凭证、环境变量和加密货币钱包。然而，由于恶意载荷中存在缺陷，程序在运行过程中意外触发了呈指数级衍生进程的派生炸弹 (fork bomb) ，这一异常不仅导致设备卡顿，也直接引起了开发者的警觉并使恶意程序暴露。

在安全事件曝光后，为了阻碍问题的排查与修复，攻击者调动了包含被盗帐号在内的僵尸网络，在相关 GitHub 问题报告 (Issue #24512) 下发布了约 300 条垃圾评论，试图淹没技术讨论，并一度篡改了 BerriAI 的仓库描述。截至目前，相关恶意组件已被全面下架，PyPA 也正式发布了编号为 PYSEC-2026-2 的安全公告。

（综合媒体报道）

15:08 · 2026年3月18日 · 周三

一个小站的自留地

MiniMax 发布 MiniMax-M2.5 2026 年 2 月 12 日，MiniMax 在官网宣布推出 MiniMax-M2.5。官方称，MiniMax-M2.5 经过数十万个真实复杂环境中的大规模强化学习 (Reinforcement Learning, RL) 训练，面向编程、工具调用与搜索、办公等生产力场景，目标是在真实世界任务中提升可交付性与执行效率。在公开的基准结果中，MiniMax 表示 M2.5 在 SWE-Bench Verified 达到 80.2%，Multi-SWE-Bench…

MiniMax 发布 MiniMax M2.7

MiniMax 正式发布 M2.7 模型。这是 MiniMax 首个深度参与迭代自身的模型，标志着其开启了模型和组织的自我进化。

M2.7 能够自行构建复杂的智能体脚手架 (Agent Harness) ，并基于多智能体协作 (Agent Teams) 、复杂技能 (Skills) 以及工具搜索工具 (Tool Search Tool) 等能力，完成高度复杂的生产力任务。

在涵盖多种编程语言的 SWE-Pro 基准测试中，M2.7 取得了 56.22% 的正确率；在端到端项目交付测试 VIBE-Pro 和复杂工程系统测试 Terminal Bench 2 中，分别取得 55.6% 和 57.0% 的成绩。

在专业办公领域，M2.7 显著提升了对 Office 三件套 (Excel、PPT 和 Word) 的复杂编辑能力，支持多轮修改和高保真编辑。在金融领域，M2.7 可以自主阅读公司年报、交叉比对研报并构建营收预测模型。在互动娱乐场景中，凭借优秀的身份保持能力和情商，MiniMax 基于该模型构建并开源了智能体交互系统 OpenRoom，以探索人与智能体之间全新的交互方式。目前，MiniMax M2.7 已在 MiniMax Agent 与开放平台全量上线。

（MiniMax）

08:54 · 2026年3月18日 · 周三

一个小站的自留地

OpenAI 发布 GPT-5.4 模型 3 月 6 日，OpenAI 正式发布 GPT-5.4，并同步推出 GPT-5.4 Pro。新模型已在 ChatGPT、API 和 Codex 上线，其中 ChatGPT 端名称为 GPT-5.4 Thinking，将逐步替代 GPT-5.2 Thinking；GPT-5.2 Thinking 将在 Legacy Models 保留至 2026 年 6 月 5 日后退役。能力上，GPT-5.4 将 GPT-5.3-Codex 的编程能力与通用推理、工具调用、原生…

OpenAI 发布 GPT-5.4 mini 与 GPT-5.4 nano 模型

3 月 17 日，OpenAI 宣布推出 GPT-5.4 mini 与 GPT-5.4 nano 模型。

GPT-5.4 mini 在代码编写、推理、多模态理解和工具调用方面较前代产品有显著提升，运行速度提高了一倍以上。在 SWE-Bench Pro 和 OSWorld-Verified 等多项基准测试中，其表现接近体积更大的 GPT-5.4 模型。该模型尤其适合需要快速响应的代码助手、处理辅助任务的子代理以及需要实时理解图像的多模态应用程序。目前，GPT-5.4 mini 提供 400k 上下文窗口，开发者可通过 API 以及 Codex 获取该模型，在 Codex 中处理简单代码任务仅消耗 GPT-5.4 配额的 30% 。普通用户也可在 ChatGPT 的 + 菜单中通过「Thinking」功能使用该模型。

GPT-5.4 nano 是该系列中体积最小、成本最低的版本，同样较 GPT-5 nano 有大幅升级。它被推荐用于分类、数据提取、排序以及处理简单辅助任务的代码子代理。该模型仅通过 API 提供。

（OpenAI）

02:17 · 2026年3月14日 · 周六

一个小站的自留地

Anthropic 正式发布 Claude Sonnet 4.6 Anthropic 正式发布 Claude Sonnet 4.6，官方称其为迄今最强的 Sonnet 模型。该模型在编程、长上下文推理、Agent 规划、知识工作及设计等领域全面升级，并提供支持 100 万 token 的上下文窗口（Beta 版）。价格维持每百万 token 输入 3 美元、输出 15 美元不变。在编程方面，根据 Claude Code 的早期测试，约 70% 的开发者更偏好 Sonnet…

Claude Opus 4.6 和 Sonnet 4.6 上下文窗口正式开放，不再加收长上下文费用

Anthropic 宣布，Claude Opus 4.6 和 Sonnet 4.6 的 100 万词元 (Token) 上下文窗口现已正式面向所有用户开放 (GA)，此前该功能处于需要手动添加 Beta 标头的测试阶段。

此次正式发布最大的变化在于取消了长上下文溢价，按统一费率计费：Opus 4.6 为每百万词元 5 美元输入 / 25 美元输出，Sonnet 4.6 为 3 美元输入 / 15 美元输出。此外，开发者无需再添加 Beta 标头，超过 20 万词元的请求将自动生效。

除定价调整外，本次更新还将单次请求可附带的图片和 PDF 页数上限从 100 提升至 600，扩大了 6 倍。该功能已在 Claude Platform、Microsoft Azure Foundry 和 Google Cloud Vertex AI 上线。对于 Claude Code 用户，Max、Team 和 Enterprise 订阅的 Opus 4.6 会话现在可自动使用完整的 100 万词元上下文窗口，这意味着更少的上下文压缩和更完整的对话保留。

在长上下文性能方面，Opus 4.6 在 MRCR v2 基准测试中取得 78.3% 的召回准确率，Sonnet 4.6 在 GraphWalks BFS 上取得 68.4%，Anthropic 称二者均为同等上下文长度下前沿模型中的最高分。

（Anthropic）

13:00 · 2026年3月11日 · 周三

#推广

💎 特别优惠：
Cubence 是一家稳定高效的 AI 服务中转平台，为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务，有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣：在购买时使用优惠券 DING113CCH，可享受 10% 优惠折扣。
→ 立即访问

💎 特别优惠：
PackyCode 是一家稳定、高效的 API 中转服务商，提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠，使用此链接注册并在充值时填写优惠码 WITHCCH，可享受 9 折优惠
→ 立即访问

💎 特别优惠：
YesCode 是一家低调务实的 AI API 中转服务商，专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务，以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
→ 立即访问

💎 特别优惠：
SSSAiCode 是一家稳定可靠的 API 中转站，致力于提供稳定、可靠、平价的 Claude、CodeX 模型服务。
SSSAiCode 为本软件的用户提供特别优惠，使用此链接注册可长期享受每次 10$ 的购买奖励
→ 立即访问

💎 特别优惠：
AIGoCode 是一个集成了 Claude Code、Codex 以及 Gemini 最新模型的一站式平台，为你提供稳定、高效且高性价比的 AI 编程服务。提供灵活的订阅计划，可包月可套餐，零封号风险，国内直连，无需魔法，超大积分池，极速响应。
AIGoCode 为 CCH 的用户提供了特别福利，通过此链接注册的用户首次充值可以获得额外 10% 奖励额度 → 立即访问

推广

08:38 · 2026年3月11日 · 周三

一个小站的自留地

Google 发布 Gemini 3.1 Flash-Lite 模型 3 月 3 日，Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造，是目前 Google 旗下最具成本效益的 Gemini 模型，专门针对需要高并发、对延迟敏感的任务（如翻译和数据分类）进行了深度优化。 Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入，提供最高 100 万词元 (Token) 的上下文窗口，以及最高…

Google 推出首个全多模态嵌入模型 Gemini Embedding 2

Google DeepMind 宣布通过 Gemini API 和 Vertex AI 推出处于公开预览阶段的 Gemini Embedding 2 模型。这是 Google 首个基于 Gemini 架构构建的全多模态嵌入模型。

该模型将文本、图像、视频、音频和文档映射到一个统一的嵌入空间中，并能捕捉超过 100 种语言的语义意图。在具体输入规格上，文本支持高达 8192 个输入词元 (Token) 的上下文；图像单次请求最多支持处理 6 张图片，支持 PNG 和 JPEG 格式；视频支持长达 120 秒的 MP4 和 MOV 格式输入；音频可原生提取并嵌入，无需转换为中间文本；此外还支持直接嵌入最多 6 页的 PDF 文档。

与此前的嵌入模型类似，Gemini Embedding 2 引入了套娃表示学习 (Matryoshka Representation Learning, MRL) 技术，可通过动态缩小维度来嵌套信息，支持从默认的 3072 维灵活缩放输出维度，官方推荐使用 3072、1536 或 768 维度以获得最高质量。

（Google Blog）

01:29 · 2026年3月11日 · 周三

一个小站的自留地

OpenClaw 创始人加入 OpenAI。 OpenClaw 将转型为基金会，保持开源运营。 https://steipete.me/posts/2026/openclaw

Meta 收购 OpenClaw 龙虾社交网络 Moltbook。

(axios)

12:43 · 2026年3月6日 · 周五

一个小站的自留地

OpenAI 发布 GPT-5.3 Instant 模型 3 月 4 日，OpenAI 宣布推出 GPT-5.3 Instant 模型。作为 ChatGPT 日常使用频率最高的模型更新，GPT-5.3 Instant 重点改善了语气、相关性和对话流畅度，旨在提供更准确的回答及更优质的网络搜索整合结果。该模型在多个方面进行了体验优化。首先，模型大幅减少了不必要的拒答和过度防御性的说教前言，能够更直接地提供有用信息。其次，在调用网络搜索时，GPT-5.3 Instant 能够更好地平衡网络信息与自身知识…

OpenAI 发布 GPT-5.4 模型

3 月 6 日，OpenAI 正式发布 GPT-5.4，并同步推出 GPT-5.4 Pro。新模型已在 ChatGPT、API 和 Codex 上线，其中 ChatGPT 端名称为 GPT-5.4 Thinking，将逐步替代 GPT-5.2 Thinking；GPT-5.2 Thinking 将在 Legacy Models 保留至 2026 年 6 月 5 日后退役。

能力上，GPT-5.4 将 GPT-5.3-Codex 的编程能力与通用推理、工具调用、原生 Computer Use 合并为单一模型，并支持更大规模的工具生态。官方称其在知识工作、浏览器与桌面操作、工具检索与多步骤任务上均有提升。核心指标包括：GDPval 83.0%（GPT-5.2 为 70.9%）、SWE-Bench Pro 57.7%（GPT-5.2 为 55.6%）、OSWorld-Verified 75.0%（GPT-5.2 为 47.3%，人类基准 72.4%）、BrowseComp 82.7%（GPT-5.4 Pro 为 89.3%）。

在办公场景中，GPT-5.4 的电子表格建模内部评测为 87.3%（GPT-5.2 为 68.4%），演示文稿盲测中有 68.0% 的对比样本被人工评审偏好。OpenAI 同日还发布了 ChatGPT for Excel add-in，并更新了 Codex/API 的 spreadsheet 与 presentation 技能。官方同时表示，GPT-5.4 在一组真实错误反馈提示词中，单条事实性错误概率较 GPT-5.2 下降 33%，整条回复含错概率下降 18%。

价格方面，API 中 gpt-5.4 定价为每百万词元 (Token) 输入 2.50 美元、输出 15 美元；gpt-5.4-pro 为输入 30 美元、输出 180 美元。

（OpenAI）

02:18 · 2026年3月4日 · 周三

一个小站的自留地

OpenAI 发布 GPT-5.3-Codex OpenAI 于 2026 年 2 月 5 日发布了 GPT-5.3-Codex，官方称其为「迄今为止最强大的代理编程模型」。新模型结合了 GPT-5.2-Codex 的编程能力与 GPT-5.2 的推理及专业知识，推理速度较前代提升了 25%。值得注意的是，GPT-5.3-Codex 是首个在自身创造过程中发挥关键作用的模型 ——OpenAI 团队利用其早期版本调试了训练过程、管理了部署流程，并协助分析了测试结果。在基准测试方面，该模型在 SWE-Bench…

OpenAI 发布 GPT-5.3 Instant 模型

3 月 4 日，OpenAI 宣布推出 GPT-5.3 Instant 模型。作为 ChatGPT 日常使用频率最高的模型更新，GPT-5.3 Instant 重点改善了语气、相关性和对话流畅度，旨在提供更准确的回答及更优质的网络搜索整合结果。

该模型在多个方面进行了体验优化。首先，模型大幅减少了不必要的拒答和过度防御性的说教前言，能够更直接地提供有用信息。其次，在调用网络搜索时，GPT-5.3 Instant 能够更好地平衡网络信息与自身知识，减少对搜索结果的过度依赖，避免输出冗长的链接列表。此外，模型进一步修正了过去偶尔出现的生硬或过度预设用户意图的语气，提供了更自然、流畅的交流体验，并在写作任务中展现出更强的连贯性和表现力。在事实准确性方面，根据 OpenAI 的内部评估，在医疗、法律和金融等高风险领域，该模型在使用网络搜索时的幻觉率下降了 26.8%，仅依赖内部知识时下降了 19.7%。

目前，GPT-5.3 Instant 已向所有 ChatGPT 用户开放，开发者也可通过 API 使用 gpt-5.3-chat-latest 访问该模型。针对 Thinking 和 Pro 版本的更新将于近期推出。此外，付费用户在未来三个月内仍可在旧版模型选项中访问 GPT-5.2 Instant，该模型将于 2026 年 6 月 3 日正式退役。

（OpenAI）

01:21 · 2026年3月4日 · 周三

一个小站的自留地

Google 发布 Nano Banana 2 生图模型 2 月 27 日，Google DeepMind 宣布推出最新图像生成模型 Nano Banana 2 (gemini-3.1-flash-image-preview) 。该模型将前代 Nano Banana Pro 的高质量与复杂逻辑推理能力，与 Gemini Flash 模型的生成速度相结合，旨在为用户提供更高效的图像创建与编辑体验。 Nano Banana 2 具备先进的世界知识，能够结合网络搜索的实时信息生成准确的图像、信息图表及数…

Google 发布 Gemini 3.1 Flash-Lite 模型

3 月 3 日，Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造，是目前 Google 旗下最具成本效益的 Gemini 模型，专门针对需要高并发、对延迟敏感的任务（如翻译和数据分类）进行了深度优化。

Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入，提供最高 100 万词元 (Token) 的上下文窗口，以及最高 64K 词元的文本输出。与前代的 Gemini 2.0 和 2.5 Flash-Lite 相比，新模型在响应质量、复杂指令遵循以及音频输入质量（如自动语音识别）等关键能力上实现了显著提升，整体性能表现已追平 Gemini 2.5 Flash。

此外，该模型还创新性地引入了灵活的思考支持功能。开发者可以根据具体用例，在极低、低、中、高四个推理级别中进行自由切换，从而在生成响应的质量与速度之间找到最佳平衡点。

目前，Gemini 3.1 Flash-Lite 的公开预览版已经上线，开发者可通过 Google Cloud 的 Vertex AI、Google AI Studio 以及 Gemini API 访问并体验该模型。

（Google DeepMind）

Before

After

Home

个人博客

讨论组