起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/ygxz_group
一个小站的自留地
Anthropic 宣布调整 Claude 免费版、Pro 版和 Max 版订阅用户的会话限制机制。虽然每周总额度保持不变,但在工作日高峰时段(太平洋时间 5:00–11:00,对应北京时间 21:00 至次日 03:00),用户的 5 小时会话配额将以更快速度消耗。 Anthropic 产品负责人 Thariq 表示 ,公司已通过效率优化抵消部分影响,但仍有约 7% 的用户会触及此前不会遇到的会话限制,尤其是 Pro 版用户。他建议用户将占用大量 token 的后台任务转移到非高峰时段运行,以延长会话限制。此举旨在应对…
Claude Code 源码因 Source Map 配置疏漏再次泄露

3 月 31 日,有开发者发现 Anthropic 旗下 AI 编程智能体 Claude Code 的 v2.1.88 版本 NPM 发布包中包含了完整的 Source Map 文件 (cli.js.map)。该文件的 sourcesContent 字段保留了全部 TypeScript 源码,可通过简单脚本提取还原。

这是 Claude Code 第二次因相同原因发生源码泄露。2025 年 2 月 Claude Code 作为研究预览版首次发布时,就曾因 NPM 包中附带 Source Map 文件而导致源码外泄。Anthropic 当时迅速推送更新移除了 Source Map,并从 NPM Registry 下架了所有受影响的旧版本。此次事件发生后,Anthropic 启动了紧急撤包流程,NPM 上显示的最新版本已回退至 2.1.87。

与一年前相比,此次泄露的源码展示了大量新模块,包括多 Agent 协调模块 (coordinator/)、内部代号为「KAIROS」的助手模式 (assistant/)、语音交互模块 (voice/)、插件和技能系统 (plugins/、skills/),以及一个名为「buddy」的 AI 伴侣 UI 模块。目录结构还包含远程会话 (remote/)、Vim 模式 (vim/) 等组件,呈现出 Claude Code 从单一 CLI 工具向复合 Agent 平台演进的工程全貌。

值得注意的是,这并非 Anthropic 近期唯一的信息泄露事件。

3 月 26 日,Fortune 杂志报道称,Anthropic 因内容管理系统 (CMS) 配置错误,导致一份未发布的博客草稿被公开发现,其中提及了名为 Claude Mythos (亦称 Capybara) 的新模型。Anthropic 随后承认正在开发和测试该模型,称其代表了 AI 性能的「阶梯式跃升」(step change),是该公司迄今为止构建的最强模型。

老冯云数)(源码备份
一个小站的自留地
LiteLLM 仓库遭受供应链攻击 LLM 代理工具 LiteLLM 遭受名为 TeamPCP 的威胁行为者发起的供应链攻击。攻击者在 Python 软件包索引 (Python Package Index, PyPI) 发布了包含信息窃取程序的 1.82.7 和 1.82.8 恶意版本,上述版本在暴露约 3 小时后被官方隔离。 攻击者首先利用外泄的个人访问令牌 (Personal Access Token, PAT) ,在开发商 BerriAI 的 GitHub 仓库中推送了恶意的 GitHub Actions…
axios 遭复杂供应链攻击

2026 年 3 月 31 日,安全机构 StepSecurity 发现,广泛使用的 JavaScript HTTP 客户端库 axios 在 npm 上被发布了两个恶意版本 (1.14.1 和 0.30.4),均通过被盗的首席维护者凭据发布,绕过了项目正常的 CI/CD 流程。

攻击者将维护者账号邮箱篡改为一个 ProtonMail 匿名地址,并利用该账号的长期有效 npm 访问令牌通过命令行手动发布。在此之前,攻击者已从另一个一次性账号预先发布了恶意依赖 plain-crypto-js@4.2.1,两个账号均使用 ProtonMail 注册,呈现一致的操作特征。

恶意版本相比安全版本,唯一的变化是在依赖列表中新增了 plain-crypto-js@4.2.1。当开发者执行 npm install 时,npm 会自动解析并安装该依赖,随即触发其 postinstall 脚本启动木马投放程序。

恶意软件采用了多种高级规避技术:运行时解混淆以隐藏真实意图,动态加载 fs、os、execSync 等敏感模块以绕过静态扫描,可直接在宿主系统上执行解码后的 shell 命令,并将载荷文件部署至系统临时目录和 Windows ProgramData 目录等敏感位置,执行完毕后自动删除或重命名自身文件以对抗取证分析。

axios 每周下载量达数千万次 (Socket 统计约 8300 万次),是 JavaScript 生态中使用最广泛的 HTTP 客户端之一,此次事件的潜在波及面极大。

开发者应立即排查项目依赖,可通过以下命令检查是否受到影响:
npm ls axios plain-crypto-js


若确认安装了受影响版本,应视系统为已被入侵,将 axios 固定至安全版本 (1.14.0 或 0.30.3),轮换受影响机器上的所有密钥、API 密钥和凭据,并检查网络日志中是否存在指向已知 C2 域名或 IP 地址的出站连接。

(综合媒体报道)
一个小站的自留地
继旗舰模型 Qwen3.5-397B-A17B 首次开源后,Qwen 团队新增发布三款模型: Qwen3.5-122B-A10B、 Qwen3.5-27B (Dense) 与 Qwen3.5-35B-A3B 。上述模型均已在 GitHub、Hugging Face 及魔搭社区提供下载,供研究与微调使用。 同时,与 Qwen3.5-35B-A3B 对齐的托管生产版本 Qwen3.5-Flash API 已正式上线阿里云百炼平台。该版本默认支持 100 万词元 (Token) 的上下文长度,并内置了官方原生…
阿里推出  Qwen3.6 Plus Preview  和 Qwen3.5-Omni  系列大模型

阿里 Qwen 团队在 OpenRouter 平台正式上线了  Qwen3.6 Plus Preview  模型。该模型作为  Qwen Plus  系列的下一代演进版本,采用先进的混合架构以提升效率与可扩展性。其支持高达  1,000,000 token 的上下文窗口以及最大  65,536 tokens 的输出。

模型预览期间,开发者可以在 OpenRouter、OpenCode 和 Kilo Code 等平台和工具免费调用该模型。

与此同时,阿里 Qwen 正式发布了新一代全模态大模型  Qwen3.5-Omni  系列,包含  Plus、Flash  和  Light  三种尺寸。该模型原生实现了对文本、图片、音频及音视频的统一理解,同时支持超长音视频输入、音色克隆、智能语义打断以及  113  种语种和方言的语音交互。

目前,企业及开发者已可通过  Qwen Chat、阿里云百炼 API 进行体验和集成。

(橘鸦 Juya)
一个小站的自留地
Gemini 将成为 Apple Intelligence 基础模型 当地时间 2026 年 1 月 12 日,Apple 与 Google 发布联合声明,确认双方达成多年期合作:下一代 Apple 基础模型将基于 Google 的 Gemini 模型与云技术构建,并用于驱动未来 Apple Intelligence 功能,包括今年上线更个性化的 Siri。 Reuters 报道称,Apple 将在今年晚些时候推出改版后的 Siri,并引入 Gemini 模型能力。这也让 Gemini 获得新的系统级分发入口:Apple…
Apple 智能凌晨意外推送国行机型,功能已被撤回

3 月 31 日凌晨,部分国行 iPhone 用户在升级至 iOS 26.4 后,发现系统设置中出现了「Apple 智能与 Siri」入口,一度引发苹果 AI 功能正在进行灰度测试的猜测。

彭博社记者 Mark Gurman 随后确认,此次推送属于意外,苹果目前尚未获得中国监管部门的批准,也没有即将上线的计划,相关功能已被撤回。Gurman 还指出,苹果不会在没有正式公告的情况下在中国推出该功能,也不会选择在当地时间凌晨上线。

在 Apple 智能短暂可用期间,用户实测发现该功能并未完全开发就绪:「视觉智能」依旧使用 Google 搜索方案,「GPT 扩展」按钮虽存在但无法激活。不过,实时翻译、照片消除、协作工具、智绘表情 (Genmoji) 和图乐园 (Image Playground) 等大部分功能可正常使用。

值得注意的是,此前有媒体报道称 Apple 智能使用了百度文心大模型,但这是一个误传——相关截图中的回答实际来自 Siri 调用百度搜索的结果,旧版 Siri 同样能获取到相同答案。根据此前的报道,Apple 智能在中国将依托阿里巴巴的通义千问 (Qwen) 模型来满足监管要求。

Gurman 今年早些时候还曾透露,苹果计划同时与阿里巴巴和百度合作推进中国市场的 AI 布局:阿里巴巴负责调整和审核苹果端侧模型的内容以符合中国法规,百度则为「视觉智能」功能提供支持。

中国目前仍是全球最后一个尚未上线 Apple 智能的主要市场。截至目前,苹果官方尚未对此次事件做出正式回应。
Anthropic 宣布调整 Claude 免费版、Pro 版和 Max 版订阅用户的会话限制机制。虽然每周总额度保持不变,但在工作日高峰时段(太平洋时间 5:00–11:00,对应北京时间 21:00 至次日 03:00),用户的 5 小时会话配额将以更快速度消耗。

Anthropic 产品负责人 Thariq 表示 ,公司已通过效率优化抵消部分影响,但仍有约 7% 的用户会触及此前不会遇到的会话限制,尤其是 Pro 版用户。他建议用户将占用大量 token 的后台任务转移到非高峰时段运行,以延长会话限制。此举旨在应对 Claude 日益增长的需求,通过时段差异化管理平衡服务负载。

——————

OpenAI 宣布 为 Codex 推出插件功能,支持与 Slack、Figma、Notion、Gmail、Google Drive 等主流工具的开箱即用集成。插件可将应用集成、技能(skills)和 MCP 服务器配置打包为可安装的复用单元,覆盖代码编写前的规划、研究、协调以及后续工作流。

与此同时,OpenAI 产品负责人 Tibo 宣布 重置 Codex 所有订阅套餐的使用限额,让用户可无限制使用 Codex 构建项目,以便体验刚推出的插件功能。Tibo 表示限额重置将持续一段时间,鼓励用户充分测试新推出的插件生态。
API 协作平台 Apifox 遭供应链攻击,所有桌面端用户 SSH 密钥与凭证面临泄露风险

2026 年 3 月 4 日至 3 月 22 日期间,API 协作平台 Apifox 的公网 SaaS 版桌面客户端遭受供应链攻击。攻击者篡改了托管在 CDN 上的外部 JavaScript 文件,在合法的事件追踪代码末尾追加了约 42 KB 的恶意载荷。

恶意代码会采集机器指纹 (MAC 地址、CPU 型号、主机名等信息的 SHA-256 哈希值) 并窃取 Apifox 用户的访问令牌 (Access Token) ,随后通过 RSA-2048 加密将敏感信息发送至命令与控制 (Command and Control, C2) 服务器 apifox[.]it[.]com。C2 服务器返回经 RSA 加密的 Stage-1 加载器,动态生成随机路径的 Stage-2 攻击载荷。Stage-2 脚本通过 Node.js API 递归读取用户设备上的高敏感文件,包括:

- ~/.ssh/ 目录下的全部 SSH 密钥
- ~/.git-credentials 中的 Git 凭证
- ~/.zsh_history 和 ~/.bash_history 中的命令行历史
- ~/.kube/ 下的 Kubernetes 集群配置
- ~/.npmrc 中的 npm 注册表令牌


攻击者在入口文件中部署了精密的混淆与加密机制,但在服务端下发的实际攻击载荷中却保留了完整的中文开发注释。更关键的失误是将 RSA-2048 私钥硬编码在客户端代码中,使得安全研究人员得以解密全部 C2 通信并完整还原攻击链。

该恶意软件本质上是一个基于 eval() 的完整远程代码执行 (Remote Code Execution, RCE) 平台。C2 服务器在每次轮询 (间隔 30 分钟至 3 小时) 中均可下发完全不同的任意 JavaScript 代码。目前捕获的 Stage-2 载荷仅为前期侦察与凭据采集阶段,攻击者完全有能力根据已回传的机器指纹、Apifox 邮箱 (判断所属公司) 、SSH 密钥 (判断可达服务器) 、Kubernetes 配置 (判断集群规模) 等信息筛选高价值目标,并为其量身定制后续攻击载荷——包括但不限于独立后门植入、横向移动、源代码窃取、生产环境接管以及利用窃取的 npm 或 Git 令牌发起二次供应链投毒。

Apifox 官方已于 3 月 25 日发布紧急修复版本 2.8.19,彻底废除了在线动态加载机制,改为本地内置打包。官方强烈建议受影响用户立即升级客户端、全面轮换 SSH 密钥、吊销 Git 个人访问令牌 (Personal Access Token, PAT) 、重置 Kubernetes 集群凭证与 npm 注册表令牌,并在 hosts 文件中阻断恶意域名 apifox.it.com。私有化部署版与 SaaS Web 版用户不受此次事件影响。

Apifox 现有用户可通过以下方式观察是否被投毒事件影响:
- 检查 Electron localStorage 中是否存在 _rl_headers、_rl_mc 键
- 监控网络流量中是否有到 apifox[.]it[.]com 的历史请求流量
- 检查历史 HTTP 请求头中是否包含 af_uuid、af_os 等异常字段


(Apifox白帽酱)
LiteLLM 仓库遭受供应链攻击

LLM 代理工具 LiteLLM 遭受名为 TeamPCP 的威胁行为者发起的供应链攻击。攻击者在 Python 软件包索引 (Python Package Index, PyPI) 发布了包含信息窃取程序的 1.82.7 和 1.82.8 恶意版本,上述版本在暴露约 3 小时后被官方隔离。

攻击者首先利用外泄的个人访问令牌 (Personal Access Token, PAT) ,在开发商 BerriAI 的 GitHub 仓库中推送了恶意的 GitHub Actions 工作流。该工作流不仅收集并加密了项目的所有环境机密,还成功窃取了用于发布软件包的凭证。随后植入的恶意程序试图在后台窃取开发者的 SSH 密钥、云服务凭证、环境变量和加密货币钱包。然而,由于恶意载荷中存在缺陷,程序在运行过程中意外触发了呈指数级衍生进程的派生炸弹 (fork bomb) ,这一异常不仅导致设备卡顿,也直接引起了开发者的警觉并使恶意程序暴露。

在安全事件曝光后,为了阻碍问题的排查与修复,攻击者调动了包含被盗帐号在内的僵尸网络,在相关 GitHub 问题报告 (Issue #24512) 下发布了约 300 条垃圾评论,试图淹没技术讨论,并一度篡改了 BerriAI 的仓库描述。截至目前,相关恶意组件已被全面下架,PyPA 也正式发布了编号为 PYSEC-2026-2 的安全公告。

(综合媒体报道)
一个小站的自留地
MiniMax 发布 MiniMax-M2.5 2026 年 2 月 12 日,MiniMax 在官网宣布推出 MiniMax-M2.5。官方称,MiniMax-M2.5 经过数十万个真实复杂环境中的大规模强化学习 (Reinforcement Learning, RL) 训练,面向编程、工具调用与搜索、办公等生产力场景,目标是在真实世界任务中提升可交付性与执行效率。 在公开的基准结果中,MiniMax 表示 M2.5 在 SWE-Bench Verified 达到 80.2%,Multi-SWE-Bench…
MiniMax 发布 MiniMax M2.7

MiniMax 正式发布 M2.7 模型。这是 MiniMax 首个深度参与迭代自身的模型,标志着其开启了模型和组织的自我进化。

M2.7 能够自行构建复杂的智能体脚手架 (Agent Harness) ,并基于多智能体协作 (Agent Teams) 、复杂技能 (Skills) 以及工具搜索工具 (Tool Search Tool) 等能力,完成高度复杂的生产力任务。

在涵盖多种编程语言的 SWE-Pro 基准测试中,M2.7 取得了 56.22% 的正确率;在端到端项目交付测试 VIBE-Pro 和复杂工程系统测试 Terminal Bench 2 中,分别取得 55.6% 和 57.0% 的成绩。

在专业办公领域,M2.7 显著提升了对 Office 三件套 (Excel、PPT 和 Word) 的复杂编辑能力,支持多轮修改和高保真编辑。在金融领域,M2.7 可以自主阅读公司年报、交叉比对研报并构建营收预测模型。在互动娱乐场景中,凭借优秀的身份保持能力和情商,MiniMax 基于该模型构建并开源了智能体交互系统 OpenRoom,以探索人与智能体之间全新的交互方式。目前,MiniMax M2.7 已在 MiniMax Agent 与开放平台全量上线。

MiniMax
一个小站的自留地
OpenAI 发布 GPT-5.4 模型 3 月 6 日,OpenAI 正式发布 GPT-5.4,并同步推出 GPT-5.4 Pro。新模型已在 ChatGPT、API 和 Codex 上线,其中 ChatGPT 端名称为 GPT-5.4 Thinking,将逐步替代 GPT-5.2 Thinking;GPT-5.2 Thinking 将在 Legacy Models 保留至 2026 年 6 月 5 日后退役。 能力上,GPT-5.4 将 GPT-5.3-Codex 的编程能力与通用推理、工具调用、原生…
OpenAI 发布 GPT-5.4 mini 与 GPT-5.4 nano 模型

3 月 17 日 ,OpenAI 宣布推出 GPT-5.4 mini 与 GPT-5.4 nano 模型。

GPT-5.4 mini 在代码编写、推理、多模态理解和工具调用方面较前代产品有显著提升,运行速度提高了一倍以上。在 SWE-Bench Pro 和 OSWorld-Verified 等多项基准测试中,其表现接近体积更大的 GPT-5.4 模型。该模型尤其适合需要快速响应的代码助手、处理辅助任务的子代理以及需要实时理解图像的多模态应用程序。目前,GPT-5.4 mini 提供 400k 上下文窗口,开发者可通过 API 以及 Codex 获取该模型,在 Codex 中处理简单代码任务仅消耗 GPT-5.4 配额的 30% 。普通用户也可在 ChatGPT 的 + 菜单中通过「Thinking」功能使用该模型。

GPT-5.4 nano 是该系列中体积最小、成本最低的版本,同样较 GPT-5 nano 有大幅升级。它被推荐用于分类、数据提取、排序以及处理简单辅助任务的代码子代理。该模型仅通过 API 提供。

OpenAI
一个小站的自留地
Anthropic  正式发布  Claude Sonnet 4.6 Anthropic  正式发布  Claude Sonnet 4.6,官方称其为迄今最强的  Sonnet  模型。该模型在编程、长上下文推理、Agent  规划、知识工作及设计等领域全面升级,并提供支持  100 万  token 的上下文窗口(Beta 版)。价格维持每百万 token 输入  3  美元、输出  15  美元不变。 在编程方面,根据  Claude Code  的早期测试,约  70%  的开发者更偏好  Sonnet…
Claude Opus 4.6 和 Sonnet 4.6 上下文窗口正式开放,不再加收长上下文费用

Anthropic 宣布,Claude Opus 4.6 和 Sonnet 4.6 的 100 万词元 (Token) 上下文窗口现已正式面向所有用户开放 (GA),此前该功能处于需要手动添加 Beta 标头的测试阶段。

此次正式发布最大的变化在于取消了长上下文溢价,按统一费率计费:Opus 4.6 为每百万词元 5 美元输入 / 25 美元输出,Sonnet 4.6 为 3 美元输入 / 15 美元输出。此外,开发者无需再添加 Beta 标头,超过 20 万词元的请求将自动生效。

除定价调整外,本次更新还将单次请求可附带的图片和 PDF 页数上限从 100 提升至 600,扩大了 6 倍。该功能已在 Claude Platform、Microsoft Azure Foundry 和 Google Cloud Vertex AI 上线。对于 Claude Code 用户,Max、Team 和 Enterprise 订阅的 Opus 4.6 会话现在可自动使用完整的 100 万词元上下文窗口,这意味着更少的上下文压缩和更完整的对话保留。

在长上下文性能方面,Opus 4.6 在 MRCR v2 基准测试中取得 78.3% 的召回准确率,Sonnet 4.6 在 GraphWalks BFS 上取得 68.4%,Anthropic 称二者均为同等上下文长度下前沿模型中的最高分。

Anthropic
#推广

💎 特别优惠:
Cubence 是一家稳定高效的 AI 服务中转平台,为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务,有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣:在购买时使用优惠券 DING113CCH,可享受 10% 优惠折扣。
立即访问

💎 特别优惠:
PackyCode 是一家稳定、高效的 API 中转服务商,提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠,使用此链接注册并在充值时填写优惠码 WITHCCH,可享受 9 折优惠
立即访问

💎 特别优惠:
YesCode 是一家低调务实的 AI API 中转服务商,专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务,以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
立即访问

💎 特别优惠:
SSSAiCode 是一家稳定可靠的 API 中转站,致力于提供稳定、可靠、平价的 Claude、CodeX 模型服务。
SSSAiCode 为本软件的用户提供特别优惠,使用此链接注册可长期享受每次 10$ 的购买奖励
立即访问

💎 特别优惠:
AIGoCode 是一个集成了 Claude Code、Codex 以及 Gemini 最新模型的一站式平台,为你提供稳定、高效且高性价比的 AI 编程服务。提供灵活的订阅计划,可包月可套餐,零封号风险,国内直连,无需魔法,超大积分池,极速响应。
AIGoCode 为 CCH 的用户提供了特别福利,通过此链接注册的用户首次充值可以获得额外 10% 奖励额度 → 立即访问
一个小站的自留地
Google 发布 Gemini 3.1 Flash-Lite 模型 3 月 3 日,Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造,是目前 Google 旗下最具成本效益的 Gemini 模型,专门针对需要高并发、对延迟敏感的任务(如翻译和数据分类)进行了深度优化。 Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入,提供最高 100 万词元 (Token) 的上下文窗口,以及最高…
Google 推出首个全多模态嵌入模型 Gemini Embedding 2

Google DeepMind 宣布通过 Gemini API 和 Vertex AI 推出处于公开预览阶段的 Gemini Embedding 2 模型。这是 Google 首个基于 Gemini 架构构建的全多模态嵌入模型。

该模型将文本、图像、视频、音频和文档映射到一个统一的嵌入空间中,并能捕捉超过 100 种语言的语义意图。在具体输入规格上,文本支持高达 8192 个输入词元 (Token) 的上下文;图像单次请求最多支持处理 6 张图片,支持 PNG 和 JPEG 格式;视频支持长达 120 秒的 MP4 和 MOV 格式输入;音频可原生提取并嵌入,无需转换为中间文本;此外还支持直接嵌入最多 6 页的 PDF 文档。

与此前的嵌入模型类似,Gemini Embedding 2 引入了套娃表示学习 (Matryoshka Representation Learning, MRL) 技术,可通过动态缩小维度来嵌套信息,支持从默认的 3072 维灵活缩放输出维度,官方推荐使用 3072、1536 或 768 维度以获得最高质量。

Google Blog
一个小站的自留地
OpenAI 发布 GPT-5.3 Instant 模型 3 月 4 日,OpenAI 宣布推出 GPT-5.3 Instant 模型。作为 ChatGPT 日常使用频率最高的模型更新,GPT-5.3 Instant 重点改善了语气、相关性和对话流畅度,旨在提供更准确的回答及更优质的网络搜索整合结果。 该模型在多个方面进行了体验优化。首先,模型大幅减少了不必要的拒答和过度防御性的说教前言,能够更直接地提供有用信息。其次,在调用网络搜索时,GPT-5.3 Instant 能够更好地平衡网络信息与自身知识…
OpenAI 发布 GPT-5.4 模型

3 月 6 日,OpenAI 正式发布 GPT-5.4,并同步推出 GPT-5.4 Pro。新模型已在 ChatGPT、API 和 Codex 上线,其中 ChatGPT 端名称为 GPT-5.4 Thinking,将逐步替代 GPT-5.2 Thinking;GPT-5.2 Thinking 将在 Legacy Models 保留至 2026 年 6 月 5 日后退役。

能力上,GPT-5.4 将 GPT-5.3-Codex 的编程能力与通用推理、工具调用、原生 Computer Use 合并为单一模型,并支持更大规模的工具生态。官方称其在知识工作、浏览器与桌面操作、工具检索与多步骤任务上均有提升。核心指标包括:GDPval 83.0%(GPT-5.2 为 70.9%)、SWE-Bench Pro 57.7%(GPT-5.2 为 55.6%)、OSWorld-Verified 75.0%(GPT-5.2 为 47.3%,人类基准 72.4%)、BrowseComp 82.7%(GPT-5.4 Pro 为 89.3%)。

在办公场景中,GPT-5.4 的电子表格建模内部评测为 87.3%(GPT-5.2 为 68.4%),演示文稿盲测中有 68.0% 的对比样本被人工评审偏好。OpenAI 同日还发布了 ChatGPT for Excel add-in,并更新了 Codex/API 的 spreadsheet 与 presentation 技能。官方同时表示,GPT-5.4 在一组真实错误反馈提示词中,单条事实性错误概率较 GPT-5.2 下降 33%,整条回复含错概率下降 18%。

价格方面,API 中 gpt-5.4 定价为每百万词元 (Token) 输入 2.50 美元、输出 15 美元;gpt-5.4-pro 为输入 30 美元、输出 180 美元。

OpenAI
一个小站的自留地
OpenAI 发布 GPT-5.3-Codex OpenAI 于 2026 年 2 月 5 日发布了 GPT-5.3-Codex,官方称其为「迄今为止最强大的代理编程模型」。新模型结合了 GPT-5.2-Codex 的编程能力与 GPT-5.2 的推理及专业知识,推理速度较前代提升了 25%。值得注意的是,GPT-5.3-Codex 是首个在自身创造过程中发挥关键作用的模型 ——OpenAI 团队利用其早期版本调试了训练过程、管理了部署流程,并协助分析了测试结果。 在基准测试方面,该模型在 SWE-Bench…
OpenAI 发布 GPT-5.3 Instant 模型

3 月 4 日,OpenAI 宣布推出 GPT-5.3 Instant 模型。作为 ChatGPT 日常使用频率最高的模型更新,GPT-5.3 Instant 重点改善了语气、相关性和对话流畅度,旨在提供更准确的回答及更优质的网络搜索整合结果。

该模型在多个方面进行了体验优化。首先,模型大幅减少了不必要的拒答和过度防御性的说教前言,能够更直接地提供有用信息。其次,在调用网络搜索时,GPT-5.3 Instant 能够更好地平衡网络信息与自身知识,减少对搜索结果的过度依赖,避免输出冗长的链接列表。此外,模型进一步修正了过去偶尔出现的生硬或过度预设用户意图的语气,提供了更自然、流畅的交流体验,并在写作任务中展现出更强的连贯性和表现力。在事实准确性方面,根据 OpenAI 的内部评估,在医疗、法律和金融等高风险领域,该模型在使用网络搜索时的幻觉率下降了 26.8%,仅依赖内部知识时下降了 19.7%。

目前,GPT-5.3 Instant 已向所有 ChatGPT 用户开放,开发者也可通过 API 使用 gpt-5.3-chat-latest 访问该模型。针对 Thinking 和 Pro 版本的更新将于近期推出。此外,付费用户在未来三个月内仍可在旧版模型选项中访问 GPT-5.2 Instant,该模型将于 2026 年 6 月 3 日正式退役。

OpenAI
一个小站的自留地
Google 发布 Nano Banana 2 生图模型 2 月 27 日,Google DeepMind 宣布推出最新图像生成模型 Nano Banana 2 (gemini-3.1-flash-image-preview) 。 该模型将前代 Nano Banana Pro 的高质量与复杂逻辑推理能力,与 Gemini Flash 模型的生成速度相结合,旨在为用户提供更高效的图像创建与编辑体验。 Nano Banana 2 具备先进的世界知识,能够结合网络搜索的实时信息生成准确的图像、信息图表及数…
Google 发布 Gemini 3.1 Flash-Lite 模型

3 月 3 日,Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造,是目前 Google 旗下最具成本效益的 Gemini 模型,专门针对需要高并发、对延迟敏感的任务(如翻译和数据分类)进行了深度优化。

Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入,提供最高 100 万词元 (Token) 的上下文窗口,以及最高 64K 词元的文本输出。与前代的 Gemini 2.0 和 2.5 Flash-Lite 相比,新模型在响应质量、复杂指令遵循以及音频输入质量(如自动语音识别)等关键能力上实现了显著提升,整体性能表现已追平 Gemini 2.5 Flash。

此外,该模型还创新性地引入了灵活的思考支持功能。开发者可以根据具体用例,在极低、低、中、高四个推理级别中进行自由切换,从而在生成响应的质量与速度之间找到最佳平衡点。

目前,Gemini 3.1 Flash-Lite 的公开预览版已经上线,开发者可通过 Google Cloud 的 Vertex AI、Google AI Studio 以及 Gemini API 访问并体验该模型。

Google DeepMind
一个小站的自留地
Google 宣布推出 Gemini 3.1 Pro 模型 Google 今日宣布推出 Gemini 3.1 Pro 模型。作为 Gemini 3 系列的最新升级,3.1 Pro 进一步提升了核心推理能力,旨在为复杂的工程和研究挑战提供更智能的解决方案。在评估模型解决全新逻辑模式能力的 ARC-AGI-2 基准测试中,Gemini 3.1 Pro 取得了 77.1% 的成绩,其推理性能达到了此前 Gemini 3 Pro 的两倍以上。 即日起,Gemini 3.1 Pro 已开始向多端用户推送预览版:…
Google 发布 Nano Banana 2 生图模型

2 月 27 日,Google DeepMind 宣布推出最新图像生成模型 Nano Banana 2 (gemini-3.1-flash-image-preview) 。

该模型将前代 Nano Banana Pro 的高质量与复杂逻辑推理能力,与 Gemini Flash 模型的生成速度相结合,旨在为用户提供更高效的图像创建与编辑体验。

Nano Banana 2 具备先进的世界知识,能够结合网络搜索的实时信息生成准确的图像、信息图表及数据可视化内容。该模型还支持精准的文本渲染与图片内文本翻译功能。

在创作控制方面,模型强化了对复杂指令的遵循能力,支持在单一工作流中保持最多 5 个角色和 14 个物品的特征一致性。此外,模型可输出从 512 px 到 4K 分辨率的多种宽高比图像,并在光影、纹理和细节表现上实现了显著提升。

目前,Nano Banana 2 已开始在多款 Google 产品中逐步上线。在 Gemini 应用中,它将在快速、思考与 Pro 模型选项中取代 Nano Banana Pro 成为默认选项,但高级订阅用户仍可手动切换回 Pro 版本。用户也可在 Google 搜索的 AI 模式和智能镜头 (Lens) 、AI Studio、Gemini API 以及 Google Cloud 的 Vertex AI 中体验该模型。此外,Nano Banana 2 已成为 Flow 工具的默认图像模型,供用户免费使用,并被集成至 Ads 广告服务中。

(Google)
一个小站的自留地
据国内媒体报道,阿里将于今晚除夕夜开源新一代千问大模型 Qwen3.5。
继旗舰模型 Qwen3.5-397B-A17B 首次开源后,Qwen 团队新增发布三款模型: Qwen3.5-122B-A10B、 Qwen3.5-27B (Dense) 与 Qwen3.5-35B-A3B 。上述模型均已在 GitHub、Hugging Face 及魔搭社区提供下载,供研究与微调使用。

同时,与 Qwen3.5-35B-A3B 对齐的托管生产版本 Qwen3.5-Flash API 已正式上线阿里云百炼平台。该版本默认支持 100 万词元 (Token) 的上下文长度,并内置了官方原生工具链,开发者无需额外集成即可直接体验。
Back to Top