axios 遭复杂供应链攻击
2026 年 3 月 31 日,安全机构 StepSecurity 发现,广泛使用的 JavaScript HTTP 客户端库 axios 在 npm 上被发布了两个恶意版本 (1.14.1 和 0.30.4),均通过被盗的首席维护者凭据发布,绕过了项目正常的 CI/CD 流程。
攻击者将维护者账号邮箱篡改为一个 ProtonMail 匿名地址,并利用该账号的长期有效 npm 访问令牌通过命令行手动发布。在此之前,攻击者已从另一个一次性账号预先发布了恶意依赖 plain-crypto-js@4.2.1,两个账号均使用 ProtonMail 注册,呈现一致的操作特征。
恶意版本相比安全版本,唯一的变化是在依赖列表中新增了 plain-crypto-js@4.2.1。当开发者执行 npm install 时,npm 会自动解析并安装该依赖,随即触发其 postinstall 脚本启动木马投放程序。
恶意软件采用了多种高级规避技术:运行时解混淆以隐藏真实意图,动态加载 fs、os、execSync 等敏感模块以绕过静态扫描,可直接在宿主系统上执行解码后的 shell 命令,并将载荷文件部署至系统临时目录和 Windows ProgramData 目录等敏感位置,执行完毕后自动删除或重命名自身文件以对抗取证分析。
axios 每周下载量达数千万次 (Socket 统计约 8300 万次),是 JavaScript 生态中使用最广泛的 HTTP 客户端之一,此次事件的潜在波及面极大。
开发者应立即排查项目依赖,可通过以下命令检查是否受到影响:
若确认安装了受影响版本,应视系统为已被入侵,将 axios 固定至安全版本 (1.14.0 或 0.30.3),轮换受影响机器上的所有密钥、API 密钥和凭据,并检查网络日志中是否存在指向已知 C2 域名或 IP 地址的出站连接。
(综合媒体报道)
2026 年 3 月 31 日,安全机构 StepSecurity 发现,广泛使用的 JavaScript HTTP 客户端库 axios 在 npm 上被发布了两个恶意版本 (1.14.1 和 0.30.4),均通过被盗的首席维护者凭据发布,绕过了项目正常的 CI/CD 流程。
攻击者将维护者账号邮箱篡改为一个 ProtonMail 匿名地址,并利用该账号的长期有效 npm 访问令牌通过命令行手动发布。在此之前,攻击者已从另一个一次性账号预先发布了恶意依赖 plain-crypto-js@4.2.1,两个账号均使用 ProtonMail 注册,呈现一致的操作特征。
恶意版本相比安全版本,唯一的变化是在依赖列表中新增了 plain-crypto-js@4.2.1。当开发者执行 npm install 时,npm 会自动解析并安装该依赖,随即触发其 postinstall 脚本启动木马投放程序。
恶意软件采用了多种高级规避技术:运行时解混淆以隐藏真实意图,动态加载 fs、os、execSync 等敏感模块以绕过静态扫描,可直接在宿主系统上执行解码后的 shell 命令,并将载荷文件部署至系统临时目录和 Windows ProgramData 目录等敏感位置,执行完毕后自动删除或重命名自身文件以对抗取证分析。
axios 每周下载量达数千万次 (Socket 统计约 8300 万次),是 JavaScript 生态中使用最广泛的 HTTP 客户端之一,此次事件的潜在波及面极大。
开发者应立即排查项目依赖,可通过以下命令检查是否受到影响:
npm ls axios plain-crypto-js
若确认安装了受影响版本,应视系统为已被入侵,将 axios 固定至安全版本 (1.14.0 或 0.30.3),轮换受影响机器上的所有密钥、API 密钥和凭据,并检查网络日志中是否存在指向已知 C2 域名或 IP 地址的出站连接。
(综合媒体报道)
阿里推出 Qwen3.6 Plus Preview 和 Qwen3.5-Omni 系列大模型
阿里 Qwen 团队在 OpenRouter 平台正式上线了 Qwen3.6 Plus Preview 模型。该模型作为 Qwen Plus 系列的下一代演进版本,采用先进的混合架构以提升效率与可扩展性。其支持高达 1,000,000 token 的上下文窗口以及最大 65,536 tokens 的输出。
模型预览期间,开发者可以在 OpenRouter、OpenCode 和 Kilo Code 等平台和工具免费调用该模型。
与此同时,阿里 Qwen 正式发布了新一代全模态大模型 Qwen3.5-Omni 系列,包含 Plus、Flash 和 Light 三种尺寸。该模型原生实现了对文本、图片、音频及音视频的统一理解,同时支持超长音视频输入、音色克隆、智能语义打断以及 113 种语种和方言的语音交互。
目前,企业及开发者已可通过 Qwen Chat、阿里云百炼 API 进行体验和集成。
(橘鸦 Juya)
阿里 Qwen 团队在 OpenRouter 平台正式上线了 Qwen3.6 Plus Preview 模型。该模型作为 Qwen Plus 系列的下一代演进版本,采用先进的混合架构以提升效率与可扩展性。其支持高达 1,000,000 token 的上下文窗口以及最大 65,536 tokens 的输出。
模型预览期间,开发者可以在 OpenRouter、OpenCode 和 Kilo Code 等平台和工具免费调用该模型。
与此同时,阿里 Qwen 正式发布了新一代全模态大模型 Qwen3.5-Omni 系列,包含 Plus、Flash 和 Light 三种尺寸。该模型原生实现了对文本、图片、音频及音视频的统一理解,同时支持超长音视频输入、音色克隆、智能语义打断以及 113 种语种和方言的语音交互。
目前,企业及开发者已可通过 Qwen Chat、阿里云百炼 API 进行体验和集成。
(橘鸦 Juya)
3 月 31 日凌晨,部分国行 iPhone 用户在升级至 iOS 26.4 后,发现系统设置中出现了「Apple 智能与 Siri」入口,一度引发苹果 AI 功能正在进行灰度测试的猜测。
彭博社记者 Mark Gurman 随后确认,此次推送属于意外,苹果目前尚未获得中国监管部门的批准,也没有即将上线的计划,相关功能已被撤回。Gurman 还指出,苹果不会在没有正式公告的情况下在中国推出该功能,也不会选择在当地时间凌晨上线。
在 Apple 智能短暂可用期间,用户实测发现该功能并未完全开发就绪:「视觉智能」依旧使用 Google 搜索方案,「GPT 扩展」按钮虽存在但无法激活。不过,实时翻译、照片消除、协作工具、智绘表情 (Genmoji) 和图乐园 (Image Playground) 等大部分功能可正常使用。
值得注意的是,此前有媒体报道称 Apple 智能使用了百度文心大模型,但这是一个误传——相关截图中的回答实际来自 Siri 调用百度搜索的结果,旧版 Siri 同样能获取到相同答案。根据此前的报道,Apple 智能在中国将依托阿里巴巴的通义千问 (Qwen) 模型来满足监管要求。
Gurman 今年早些时候还曾透露,苹果计划同时与阿里巴巴和百度合作推进中国市场的 AI 布局:阿里巴巴负责调整和审核苹果端侧模型的内容以符合中国法规,百度则为「视觉智能」功能提供支持。
中国目前仍是全球最后一个尚未上线 Apple 智能的主要市场。截至目前,苹果官方尚未对此次事件做出正式回应。
Anthropic 宣布调整 Claude 免费版、Pro 版和 Max 版订阅用户的会话限制机制。虽然每周总额度保持不变,但在工作日高峰时段(太平洋时间 5:00–11:00,对应北京时间 21:00 至次日 03:00),用户的 5 小时会话配额将以更快速度消耗。
Anthropic 产品负责人 Thariq 表示 ,公司已通过效率优化抵消部分影响,但仍有约 7% 的用户会触及此前不会遇到的会话限制,尤其是 Pro 版用户。他建议用户将占用大量 token 的后台任务转移到非高峰时段运行,以延长会话限制。此举旨在应对 Claude 日益增长的需求,通过时段差异化管理平衡服务负载。
——————
OpenAI 宣布 为 Codex 推出插件功能,支持与 Slack、Figma、Notion、Gmail、Google Drive 等主流工具的开箱即用集成。插件可将应用集成、技能(skills)和 MCP 服务器配置打包为可安装的复用单元,覆盖代码编写前的规划、研究、协调以及后续工作流。
与此同时,OpenAI 产品负责人 Tibo 宣布 重置 Codex 所有订阅套餐的使用限额,让用户可无限制使用 Codex 构建项目,以便体验刚推出的插件功能。Tibo 表示限额重置将持续一段时间,鼓励用户充分测试新推出的插件生态。
Anthropic 产品负责人 Thariq 表示 ,公司已通过效率优化抵消部分影响,但仍有约 7% 的用户会触及此前不会遇到的会话限制,尤其是 Pro 版用户。他建议用户将占用大量 token 的后台任务转移到非高峰时段运行,以延长会话限制。此举旨在应对 Claude 日益增长的需求,通过时段差异化管理平衡服务负载。
——————
OpenAI 宣布 为 Codex 推出插件功能,支持与 Slack、Figma、Notion、Gmail、Google Drive 等主流工具的开箱即用集成。插件可将应用集成、技能(skills)和 MCP 服务器配置打包为可安装的复用单元,覆盖代码编写前的规划、研究、协调以及后续工作流。
与此同时,OpenAI 产品负责人 Tibo 宣布 重置 Codex 所有订阅套餐的使用限额,让用户可无限制使用 Codex 构建项目,以便体验刚推出的插件功能。Tibo 表示限额重置将持续一段时间,鼓励用户充分测试新推出的插件生态。
2026 年 3 月 4 日至 3 月 22 日期间,API 协作平台 Apifox 的公网 SaaS 版桌面客户端遭受供应链攻击。攻击者篡改了托管在 CDN 上的外部 JavaScript 文件,在合法的事件追踪代码末尾追加了约 42 KB 的恶意载荷。
恶意代码会采集机器指纹 (MAC 地址、CPU 型号、主机名等信息的 SHA-256 哈希值) 并窃取 Apifox 用户的访问令牌 (Access Token) ,随后通过 RSA-2048 加密将敏感信息发送至命令与控制 (Command and Control, C2) 服务器 apifox[.]it[.]com。C2 服务器返回经 RSA 加密的 Stage-1 加载器,动态生成随机路径的 Stage-2 攻击载荷。Stage-2 脚本通过 Node.js API 递归读取用户设备上的高敏感文件,包括:
- ~/.ssh/ 目录下的全部 SSH 密钥
- ~/.git-credentials 中的 Git 凭证
- ~/.zsh_history 和 ~/.bash_history 中的命令行历史
- ~/.kube/ 下的 Kubernetes 集群配置
- ~/.npmrc 中的 npm 注册表令牌
攻击者在入口文件中部署了精密的混淆与加密机制,但在服务端下发的实际攻击载荷中却保留了完整的中文开发注释。更关键的失误是将 RSA-2048 私钥硬编码在客户端代码中,使得安全研究人员得以解密全部 C2 通信并完整还原攻击链。
该恶意软件本质上是一个基于 eval() 的完整远程代码执行 (Remote Code Execution, RCE) 平台。C2 服务器在每次轮询 (间隔 30 分钟至 3 小时) 中均可下发完全不同的任意 JavaScript 代码。目前捕获的 Stage-2 载荷仅为前期侦察与凭据采集阶段,攻击者完全有能力根据已回传的机器指纹、Apifox 邮箱 (判断所属公司) 、SSH 密钥 (判断可达服务器) 、Kubernetes 配置 (判断集群规模) 等信息筛选高价值目标,并为其量身定制后续攻击载荷——包括但不限于独立后门植入、横向移动、源代码窃取、生产环境接管以及利用窃取的 npm 或 Git 令牌发起二次供应链投毒。
Apifox 官方已于 3 月 25 日发布紧急修复版本 2.8.19,彻底废除了在线动态加载机制,改为本地内置打包。官方强烈建议受影响用户立即升级客户端、全面轮换 SSH 密钥、吊销 Git 个人访问令牌 (Personal Access Token, PAT) 、重置 Kubernetes 集群凭证与 npm 注册表令牌,并在 hosts 文件中阻断恶意域名 apifox.it.com。私有化部署版与 SaaS Web 版用户不受此次事件影响。
Apifox 现有用户可通过以下方式观察是否被投毒事件影响:
- 检查 Electron localStorage 中是否存在 _rl_headers、_rl_mc 键
- 监控网络流量中是否有到 apifox[.]it[.]com 的历史请求流量
- 检查历史 HTTP 请求头中是否包含 af_uuid、af_os 等异常字段
(Apifox、白帽酱)
LiteLLM 仓库遭受供应链攻击
LLM 代理工具 LiteLLM 遭受名为 TeamPCP 的威胁行为者发起的供应链攻击。攻击者在 Python 软件包索引 (Python Package Index, PyPI) 发布了包含信息窃取程序的 1.82.7 和 1.82.8 恶意版本,上述版本在暴露约 3 小时后被官方隔离。
攻击者首先利用外泄的个人访问令牌 (Personal Access Token, PAT) ,在开发商 BerriAI 的 GitHub 仓库中推送了恶意的 GitHub Actions 工作流。该工作流不仅收集并加密了项目的所有环境机密,还成功窃取了用于发布软件包的凭证。随后植入的恶意程序试图在后台窃取开发者的 SSH 密钥、云服务凭证、环境变量和加密货币钱包。然而,由于恶意载荷中存在缺陷,程序在运行过程中意外触发了呈指数级衍生进程的派生炸弹 (fork bomb) ,这一异常不仅导致设备卡顿,也直接引起了开发者的警觉并使恶意程序暴露。
在安全事件曝光后,为了阻碍问题的排查与修复,攻击者调动了包含被盗帐号在内的僵尸网络,在相关 GitHub 问题报告 (Issue #24512) 下发布了约 300 条垃圾评论,试图淹没技术讨论,并一度篡改了 BerriAI 的仓库描述。截至目前,相关恶意组件已被全面下架,PyPA 也正式发布了编号为 PYSEC-2026-2 的安全公告。
(综合媒体报道)
LLM 代理工具 LiteLLM 遭受名为 TeamPCP 的威胁行为者发起的供应链攻击。攻击者在 Python 软件包索引 (Python Package Index, PyPI) 发布了包含信息窃取程序的 1.82.7 和 1.82.8 恶意版本,上述版本在暴露约 3 小时后被官方隔离。
攻击者首先利用外泄的个人访问令牌 (Personal Access Token, PAT) ,在开发商 BerriAI 的 GitHub 仓库中推送了恶意的 GitHub Actions 工作流。该工作流不仅收集并加密了项目的所有环境机密,还成功窃取了用于发布软件包的凭证。随后植入的恶意程序试图在后台窃取开发者的 SSH 密钥、云服务凭证、环境变量和加密货币钱包。然而,由于恶意载荷中存在缺陷,程序在运行过程中意外触发了呈指数级衍生进程的派生炸弹 (fork bomb) ,这一异常不仅导致设备卡顿,也直接引起了开发者的警觉并使恶意程序暴露。
在安全事件曝光后,为了阻碍问题的排查与修复,攻击者调动了包含被盗帐号在内的僵尸网络,在相关 GitHub 问题报告 (Issue #24512) 下发布了约 300 条垃圾评论,试图淹没技术讨论,并一度篡改了 BerriAI 的仓库描述。截至目前,相关恶意组件已被全面下架,PyPA 也正式发布了编号为 PYSEC-2026-2 的安全公告。
(综合媒体报道)
MiniMax 正式发布 M2.7 模型。这是 MiniMax 首个深度参与迭代自身的模型,标志着其开启了模型和组织的自我进化。
M2.7 能够自行构建复杂的智能体脚手架 (Agent Harness) ,并基于多智能体协作 (Agent Teams) 、复杂技能 (Skills) 以及工具搜索工具 (Tool Search Tool) 等能力,完成高度复杂的生产力任务。
在涵盖多种编程语言的 SWE-Pro 基准测试中,M2.7 取得了 56.22% 的正确率;在端到端项目交付测试 VIBE-Pro 和复杂工程系统测试 Terminal Bench 2 中,分别取得 55.6% 和 57.0% 的成绩。
在专业办公领域,M2.7 显著提升了对 Office 三件套 (Excel、PPT 和 Word) 的复杂编辑能力,支持多轮修改和高保真编辑。在金融领域,M2.7 可以自主阅读公司年报、交叉比对研报并构建营收预测模型。在互动娱乐场景中,凭借优秀的身份保持能力和情商,MiniMax 基于该模型构建并开源了智能体交互系统 OpenRoom,以探索人与智能体之间全新的交互方式。目前,MiniMax M2.7 已在 MiniMax Agent 与开放平台全量上线。
(MiniMax)
OpenAI 发布 GPT-5.4 mini 与 GPT-5.4 nano 模型
3 月 17 日 ,OpenAI 宣布推出 GPT-5.4 mini 与 GPT-5.4 nano 模型。
GPT-5.4 mini 在代码编写、推理、多模态理解和工具调用方面较前代产品有显著提升,运行速度提高了一倍以上。在 SWE-Bench Pro 和 OSWorld-Verified 等多项基准测试中,其表现接近体积更大的 GPT-5.4 模型。该模型尤其适合需要快速响应的代码助手、处理辅助任务的子代理以及需要实时理解图像的多模态应用程序。目前,GPT-5.4 mini 提供 400k 上下文窗口,开发者可通过 API 以及 Codex 获取该模型,在 Codex 中处理简单代码任务仅消耗 GPT-5.4 配额的 30% 。普通用户也可在 ChatGPT 的 + 菜单中通过「Thinking」功能使用该模型。
GPT-5.4 nano 是该系列中体积最小、成本最低的版本,同样较 GPT-5 nano 有大幅升级。它被推荐用于分类、数据提取、排序以及处理简单辅助任务的代码子代理。该模型仅通过 API 提供。
(OpenAI)
3 月 17 日 ,OpenAI 宣布推出 GPT-5.4 mini 与 GPT-5.4 nano 模型。
GPT-5.4 mini 在代码编写、推理、多模态理解和工具调用方面较前代产品有显著提升,运行速度提高了一倍以上。在 SWE-Bench Pro 和 OSWorld-Verified 等多项基准测试中,其表现接近体积更大的 GPT-5.4 模型。该模型尤其适合需要快速响应的代码助手、处理辅助任务的子代理以及需要实时理解图像的多模态应用程序。目前,GPT-5.4 mini 提供 400k 上下文窗口,开发者可通过 API 以及 Codex 获取该模型,在 Codex 中处理简单代码任务仅消耗 GPT-5.4 配额的 30% 。普通用户也可在 ChatGPT 的 + 菜单中通过「Thinking」功能使用该模型。
GPT-5.4 nano 是该系列中体积最小、成本最低的版本,同样较 GPT-5 nano 有大幅升级。它被推荐用于分类、数据提取、排序以及处理简单辅助任务的代码子代理。该模型仅通过 API 提供。
(OpenAI)
Anthropic 宣布,Claude Opus 4.6 和 Sonnet 4.6 的 100 万词元 (Token) 上下文窗口现已正式面向所有用户开放 (GA),此前该功能处于需要手动添加 Beta 标头的测试阶段。
此次正式发布最大的变化在于取消了长上下文溢价,按统一费率计费:Opus 4.6 为每百万词元 5 美元输入 / 25 美元输出,Sonnet 4.6 为 3 美元输入 / 15 美元输出。此外,开发者无需再添加 Beta 标头,超过 20 万词元的请求将自动生效。
除定价调整外,本次更新还将单次请求可附带的图片和 PDF 页数上限从 100 提升至 600,扩大了 6 倍。该功能已在 Claude Platform、Microsoft Azure Foundry 和 Google Cloud Vertex AI 上线。对于 Claude Code 用户,Max、Team 和 Enterprise 订阅的 Opus 4.6 会话现在可自动使用完整的 100 万词元上下文窗口,这意味着更少的上下文压缩和更完整的对话保留。
在长上下文性能方面,Opus 4.6 在 MRCR v2 基准测试中取得 78.3% 的召回准确率,Sonnet 4.6 在 GraphWalks BFS 上取得 68.4%,Anthropic 称二者均为同等上下文长度下前沿模型中的最高分。
(Anthropic)
#推广
💎 特别优惠:
Cubence 是一家稳定高效的 AI 服务中转平台,为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务,有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣:在购买时使用优惠券
→ 立即访问
💎 特别优惠:
PackyCode 是一家稳定、高效的 API 中转服务商,提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠,使用此链接注册并在充值时填写优惠码
→ 立即访问
💎 特别优惠:
YesCode 是一家低调务实的 AI API 中转服务商,专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务,以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
→ 立即访问
💎 特别优惠:
SSSAiCode 是一家稳定可靠的 API 中转站,致力于提供稳定、可靠、平价的 Claude、CodeX 模型服务。
SSSAiCode 为本软件的用户提供特别优惠,使用此链接注册可长期享受每次 10$ 的购买奖励
→ 立即访问
💎 特别优惠:
AIGoCode 是一个集成了 Claude Code、Codex 以及 Gemini 最新模型的一站式平台,为你提供稳定、高效且高性价比的 AI 编程服务。提供灵活的订阅计划,可包月可套餐,零封号风险,国内直连,无需魔法,超大积分池,极速响应。
AIGoCode 为 CCH 的用户提供了特别福利,通过此链接注册的用户首次充值可以获得额外 10% 奖励额度 → 立即访问
💎 特别优惠:
Cubence 是一家稳定高效的 AI 服务中转平台,为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务,有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣:在购买时使用优惠券
DING113CCH,可享受 10% 优惠折扣。 → 立即访问
💎 特别优惠:
PackyCode 是一家稳定、高效的 API 中转服务商,提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠,使用此链接注册并在充值时填写优惠码
WITHCCH,可享受 9 折优惠 → 立即访问
💎 特别优惠:
YesCode 是一家低调务实的 AI API 中转服务商,专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务,以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
→ 立即访问
💎 特别优惠:
SSSAiCode 是一家稳定可靠的 API 中转站,致力于提供稳定、可靠、平价的 Claude、CodeX 模型服务。
SSSAiCode 为本软件的用户提供特别优惠,使用此链接注册可长期享受每次 10$ 的购买奖励
→ 立即访问
💎 特别优惠:
AIGoCode 是一个集成了 Claude Code、Codex 以及 Gemini 最新模型的一站式平台,为你提供稳定、高效且高性价比的 AI 编程服务。提供灵活的订阅计划,可包月可套餐,零封号风险,国内直连,无需魔法,超大积分池,极速响应。
AIGoCode 为 CCH 的用户提供了特别福利,通过此链接注册的用户首次充值可以获得额外 10% 奖励额度 → 立即访问
Google DeepMind 宣布通过 Gemini API 和 Vertex AI 推出处于公开预览阶段的 Gemini Embedding 2 模型。这是 Google 首个基于 Gemini 架构构建的全多模态嵌入模型。
该模型将文本、图像、视频、音频和文档映射到一个统一的嵌入空间中,并能捕捉超过 100 种语言的语义意图。在具体输入规格上,文本支持高达 8192 个输入词元 (Token) 的上下文;图像单次请求最多支持处理 6 张图片,支持 PNG 和 JPEG 格式;视频支持长达 120 秒的 MP4 和 MOV 格式输入;音频可原生提取并嵌入,无需转换为中间文本;此外还支持直接嵌入最多 6 页的 PDF 文档。
与此前的嵌入模型类似,Gemini Embedding 2 引入了套娃表示学习 (Matryoshka Representation Learning, MRL) 技术,可通过动态缩小维度来嵌套信息,支持从默认的 3072 维灵活缩放输出维度,官方推荐使用 3072、1536 或 768 维度以获得最高质量。
(Google Blog)
3 月 6 日,OpenAI 正式发布 GPT-5.4,并同步推出 GPT-5.4 Pro。新模型已在 ChatGPT、API 和 Codex 上线,其中 ChatGPT 端名称为 GPT-5.4 Thinking,将逐步替代 GPT-5.2 Thinking;GPT-5.2 Thinking 将在 Legacy Models 保留至 2026 年 6 月 5 日后退役。
能力上,GPT-5.4 将 GPT-5.3-Codex 的编程能力与通用推理、工具调用、原生 Computer Use 合并为单一模型,并支持更大规模的工具生态。官方称其在知识工作、浏览器与桌面操作、工具检索与多步骤任务上均有提升。核心指标包括:GDPval 83.0%(GPT-5.2 为 70.9%)、SWE-Bench Pro 57.7%(GPT-5.2 为 55.6%)、OSWorld-Verified 75.0%(GPT-5.2 为 47.3%,人类基准 72.4%)、BrowseComp 82.7%(GPT-5.4 Pro 为 89.3%)。
在办公场景中,GPT-5.4 的电子表格建模内部评测为 87.3%(GPT-5.2 为 68.4%),演示文稿盲测中有 68.0% 的对比样本被人工评审偏好。OpenAI 同日还发布了 ChatGPT for Excel add-in,并更新了 Codex/API 的 spreadsheet 与 presentation 技能。官方同时表示,GPT-5.4 在一组真实错误反馈提示词中,单条事实性错误概率较 GPT-5.2 下降 33%,整条回复含错概率下降 18%。
价格方面,API 中 gpt-5.4 定价为每百万词元 (Token) 输入 2.50 美元、输出 15 美元;gpt-5.4-pro 为输入 30 美元、输出 180 美元。
(OpenAI)
3 月 4 日,OpenAI 宣布推出 GPT-5.3 Instant 模型。作为 ChatGPT 日常使用频率最高的模型更新,GPT-5.3 Instant 重点改善了语气、相关性和对话流畅度,旨在提供更准确的回答及更优质的网络搜索整合结果。
该模型在多个方面进行了体验优化。首先,模型大幅减少了不必要的拒答和过度防御性的说教前言,能够更直接地提供有用信息。其次,在调用网络搜索时,GPT-5.3 Instant 能够更好地平衡网络信息与自身知识,减少对搜索结果的过度依赖,避免输出冗长的链接列表。此外,模型进一步修正了过去偶尔出现的生硬或过度预设用户意图的语气,提供了更自然、流畅的交流体验,并在写作任务中展现出更强的连贯性和表现力。在事实准确性方面,根据 OpenAI 的内部评估,在医疗、法律和金融等高风险领域,该模型在使用网络搜索时的幻觉率下降了 26.8%,仅依赖内部知识时下降了 19.7%。
目前,GPT-5.3 Instant 已向所有 ChatGPT 用户开放,开发者也可通过 API 使用 gpt-5.3-chat-latest 访问该模型。针对 Thinking 和 Pro 版本的更新将于近期推出。此外,付费用户在未来三个月内仍可在旧版模型选项中访问 GPT-5.2 Instant,该模型将于 2026 年 6 月 3 日正式退役。
(OpenAI)
3 月 3 日,Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造,是目前 Google 旗下最具成本效益的 Gemini 模型,专门针对需要高并发、对延迟敏感的任务(如翻译和数据分类)进行了深度优化。
Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入,提供最高 100 万词元 (Token) 的上下文窗口,以及最高 64K 词元的文本输出。与前代的 Gemini 2.0 和 2.5 Flash-Lite 相比,新模型在响应质量、复杂指令遵循以及音频输入质量(如自动语音识别)等关键能力上实现了显著提升,整体性能表现已追平 Gemini 2.5 Flash。
此外,该模型还创新性地引入了灵活的思考支持功能。开发者可以根据具体用例,在极低、低、中、高四个推理级别中进行自由切换,从而在生成响应的质量与速度之间找到最佳平衡点。
目前,Gemini 3.1 Flash-Lite 的公开预览版已经上线,开发者可通过 Google Cloud 的 Vertex AI、Google AI Studio 以及 Gemini API 访问并体验该模型。
(Google DeepMind)