起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/ygxz_group
一个小站的自留地
LiteLLM 仓库遭受供应链攻击 LLM 代理工具 LiteLLM 遭受名为 TeamPCP 的威胁行为者发起的供应链攻击。攻击者在 Python 软件包索引 (Python Package Index, PyPI) 发布了包含信息窃取程序的 1.82.7 和 1.82.8 恶意版本,上述版本在暴露约 3 小时后被官方隔离。 攻击者首先利用外泄的个人访问令牌 (Personal Access Token, PAT) ,在开发商 BerriAI 的 GitHub 仓库中推送了恶意的 GitHub Actions…
axios 遭复杂供应链攻击

2026 年 3 月 31 日,安全机构 StepSecurity 发现,广泛使用的 JavaScript HTTP 客户端库 axios 在 npm 上被发布了两个恶意版本 (1.14.1 和 0.30.4),均通过被盗的首席维护者凭据发布,绕过了项目正常的 CI/CD 流程。

攻击者将维护者账号邮箱篡改为一个 ProtonMail 匿名地址,并利用该账号的长期有效 npm 访问令牌通过命令行手动发布。在此之前,攻击者已从另一个一次性账号预先发布了恶意依赖 plain-crypto-js@4.2.1,两个账号均使用 ProtonMail 注册,呈现一致的操作特征。

恶意版本相比安全版本,唯一的变化是在依赖列表中新增了 plain-crypto-js@4.2.1。当开发者执行 npm install 时,npm 会自动解析并安装该依赖,随即触发其 postinstall 脚本启动木马投放程序。

恶意软件采用了多种高级规避技术:运行时解混淆以隐藏真实意图,动态加载 fs、os、execSync 等敏感模块以绕过静态扫描,可直接在宿主系统上执行解码后的 shell 命令,并将载荷文件部署至系统临时目录和 Windows ProgramData 目录等敏感位置,执行完毕后自动删除或重命名自身文件以对抗取证分析。

axios 每周下载量达数千万次 (Socket 统计约 8300 万次),是 JavaScript 生态中使用最广泛的 HTTP 客户端之一,此次事件的潜在波及面极大。

开发者应立即排查项目依赖,可通过以下命令检查是否受到影响:
npm ls axios plain-crypto-js


若确认安装了受影响版本,应视系统为已被入侵,将 axios 固定至安全版本 (1.14.0 或 0.30.3),轮换受影响机器上的所有密钥、API 密钥和凭据,并检查网络日志中是否存在指向已知 C2 域名或 IP 地址的出站连接。

(综合媒体报道)
一个小站的自留地
继旗舰模型 Qwen3.5-397B-A17B 首次开源后,Qwen 团队新增发布三款模型: Qwen3.5-122B-A10B、 Qwen3.5-27B (Dense) 与 Qwen3.5-35B-A3B 。上述模型均已在 GitHub、Hugging Face 及魔搭社区提供下载,供研究与微调使用。 同时,与 Qwen3.5-35B-A3B 对齐的托管生产版本 Qwen3.5-Flash API 已正式上线阿里云百炼平台。该版本默认支持 100 万词元 (Token) 的上下文长度,并内置了官方原生…
阿里推出  Qwen3.6 Plus Preview  和 Qwen3.5-Omni  系列大模型

阿里 Qwen 团队在 OpenRouter 平台正式上线了  Qwen3.6 Plus Preview  模型。该模型作为  Qwen Plus  系列的下一代演进版本,采用先进的混合架构以提升效率与可扩展性。其支持高达  1,000,000 token 的上下文窗口以及最大  65,536 tokens 的输出。

模型预览期间,开发者可以在 OpenRouter、OpenCode 和 Kilo Code 等平台和工具免费调用该模型。

与此同时,阿里 Qwen 正式发布了新一代全模态大模型  Qwen3.5-Omni  系列,包含  Plus、Flash  和  Light  三种尺寸。该模型原生实现了对文本、图片、音频及音视频的统一理解,同时支持超长音视频输入、音色克隆、智能语义打断以及  113  种语种和方言的语音交互。

目前,企业及开发者已可通过  Qwen Chat、阿里云百炼 API 进行体验和集成。

(橘鸦 Juya)
一个小站的自留地
Gemini 将成为 Apple Intelligence 基础模型 当地时间 2026 年 1 月 12 日,Apple 与 Google 发布联合声明,确认双方达成多年期合作:下一代 Apple 基础模型将基于 Google 的 Gemini 模型与云技术构建,并用于驱动未来 Apple Intelligence 功能,包括今年上线更个性化的 Siri。 Reuters 报道称,Apple 将在今年晚些时候推出改版后的 Siri,并引入 Gemini 模型能力。这也让 Gemini 获得新的系统级分发入口:Apple…
Apple 智能凌晨意外推送国行机型,功能已被撤回

3 月 31 日凌晨,部分国行 iPhone 用户在升级至 iOS 26.4 后,发现系统设置中出现了「Apple 智能与 Siri」入口,一度引发苹果 AI 功能正在进行灰度测试的猜测。

彭博社记者 Mark Gurman 随后确认,此次推送属于意外,苹果目前尚未获得中国监管部门的批准,也没有即将上线的计划,相关功能已被撤回。Gurman 还指出,苹果不会在没有正式公告的情况下在中国推出该功能,也不会选择在当地时间凌晨上线。

在 Apple 智能短暂可用期间,用户实测发现该功能并未完全开发就绪:「视觉智能」依旧使用 Google 搜索方案,「GPT 扩展」按钮虽存在但无法激活。不过,实时翻译、照片消除、协作工具、智绘表情 (Genmoji) 和图乐园 (Image Playground) 等大部分功能可正常使用。

值得注意的是,此前有媒体报道称 Apple 智能使用了百度文心大模型,但这是一个误传——相关截图中的回答实际来自 Siri 调用百度搜索的结果,旧版 Siri 同样能获取到相同答案。根据此前的报道,Apple 智能在中国将依托阿里巴巴的通义千问 (Qwen) 模型来满足监管要求。

Gurman 今年早些时候还曾透露,苹果计划同时与阿里巴巴和百度合作推进中国市场的 AI 布局:阿里巴巴负责调整和审核苹果端侧模型的内容以符合中国法规,百度则为「视觉智能」功能提供支持。

中国目前仍是全球最后一个尚未上线 Apple 智能的主要市场。截至目前,苹果官方尚未对此次事件做出正式回应。
Anthropic 宣布调整 Claude 免费版、Pro 版和 Max 版订阅用户的会话限制机制。虽然每周总额度保持不变,但在工作日高峰时段(太平洋时间 5:00–11:00,对应北京时间 21:00 至次日 03:00),用户的 5 小时会话配额将以更快速度消耗。

Anthropic 产品负责人 Thariq 表示 ,公司已通过效率优化抵消部分影响,但仍有约 7% 的用户会触及此前不会遇到的会话限制,尤其是 Pro 版用户。他建议用户将占用大量 token 的后台任务转移到非高峰时段运行,以延长会话限制。此举旨在应对 Claude 日益增长的需求,通过时段差异化管理平衡服务负载。

——————

OpenAI 宣布 为 Codex 推出插件功能,支持与 Slack、Figma、Notion、Gmail、Google Drive 等主流工具的开箱即用集成。插件可将应用集成、技能(skills)和 MCP 服务器配置打包为可安装的复用单元,覆盖代码编写前的规划、研究、协调以及后续工作流。

与此同时,OpenAI 产品负责人 Tibo 宣布 重置 Codex 所有订阅套餐的使用限额,让用户可无限制使用 Codex 构建项目,以便体验刚推出的插件功能。Tibo 表示限额重置将持续一段时间,鼓励用户充分测试新推出的插件生态。
API 协作平台 Apifox 遭供应链攻击,所有桌面端用户 SSH 密钥与凭证面临泄露风险

2026 年 3 月 4 日至 3 月 22 日期间,API 协作平台 Apifox 的公网 SaaS 版桌面客户端遭受供应链攻击。攻击者篡改了托管在 CDN 上的外部 JavaScript 文件,在合法的事件追踪代码末尾追加了约 42 KB 的恶意载荷。

恶意代码会采集机器指纹 (MAC 地址、CPU 型号、主机名等信息的 SHA-256 哈希值) 并窃取 Apifox 用户的访问令牌 (Access Token) ,随后通过 RSA-2048 加密将敏感信息发送至命令与控制 (Command and Control, C2) 服务器 apifox[.]it[.]com。C2 服务器返回经 RSA 加密的 Stage-1 加载器,动态生成随机路径的 Stage-2 攻击载荷。Stage-2 脚本通过 Node.js API 递归读取用户设备上的高敏感文件,包括:

- ~/.ssh/ 目录下的全部 SSH 密钥
- ~/.git-credentials 中的 Git 凭证
- ~/.zsh_history 和 ~/.bash_history 中的命令行历史
- ~/.kube/ 下的 Kubernetes 集群配置
- ~/.npmrc 中的 npm 注册表令牌


攻击者在入口文件中部署了精密的混淆与加密机制,但在服务端下发的实际攻击载荷中却保留了完整的中文开发注释。更关键的失误是将 RSA-2048 私钥硬编码在客户端代码中,使得安全研究人员得以解密全部 C2 通信并完整还原攻击链。

该恶意软件本质上是一个基于 eval() 的完整远程代码执行 (Remote Code Execution, RCE) 平台。C2 服务器在每次轮询 (间隔 30 分钟至 3 小时) 中均可下发完全不同的任意 JavaScript 代码。目前捕获的 Stage-2 载荷仅为前期侦察与凭据采集阶段,攻击者完全有能力根据已回传的机器指纹、Apifox 邮箱 (判断所属公司) 、SSH 密钥 (判断可达服务器) 、Kubernetes 配置 (判断集群规模) 等信息筛选高价值目标,并为其量身定制后续攻击载荷——包括但不限于独立后门植入、横向移动、源代码窃取、生产环境接管以及利用窃取的 npm 或 Git 令牌发起二次供应链投毒。

Apifox 官方已于 3 月 25 日发布紧急修复版本 2.8.19,彻底废除了在线动态加载机制,改为本地内置打包。官方强烈建议受影响用户立即升级客户端、全面轮换 SSH 密钥、吊销 Git 个人访问令牌 (Personal Access Token, PAT) 、重置 Kubernetes 集群凭证与 npm 注册表令牌,并在 hosts 文件中阻断恶意域名 apifox.it.com。私有化部署版与 SaaS Web 版用户不受此次事件影响。

Apifox 现有用户可通过以下方式观察是否被投毒事件影响:
- 检查 Electron localStorage 中是否存在 _rl_headers、_rl_mc 键
- 监控网络流量中是否有到 apifox[.]it[.]com 的历史请求流量
- 检查历史 HTTP 请求头中是否包含 af_uuid、af_os 等异常字段


(Apifox白帽酱)
LiteLLM 仓库遭受供应链攻击

LLM 代理工具 LiteLLM 遭受名为 TeamPCP 的威胁行为者发起的供应链攻击。攻击者在 Python 软件包索引 (Python Package Index, PyPI) 发布了包含信息窃取程序的 1.82.7 和 1.82.8 恶意版本,上述版本在暴露约 3 小时后被官方隔离。

攻击者首先利用外泄的个人访问令牌 (Personal Access Token, PAT) ,在开发商 BerriAI 的 GitHub 仓库中推送了恶意的 GitHub Actions 工作流。该工作流不仅收集并加密了项目的所有环境机密,还成功窃取了用于发布软件包的凭证。随后植入的恶意程序试图在后台窃取开发者的 SSH 密钥、云服务凭证、环境变量和加密货币钱包。然而,由于恶意载荷中存在缺陷,程序在运行过程中意外触发了呈指数级衍生进程的派生炸弹 (fork bomb) ,这一异常不仅导致设备卡顿,也直接引起了开发者的警觉并使恶意程序暴露。

在安全事件曝光后,为了阻碍问题的排查与修复,攻击者调动了包含被盗帐号在内的僵尸网络,在相关 GitHub 问题报告 (Issue #24512) 下发布了约 300 条垃圾评论,试图淹没技术讨论,并一度篡改了 BerriAI 的仓库描述。截至目前,相关恶意组件已被全面下架,PyPA 也正式发布了编号为 PYSEC-2026-2 的安全公告。

(综合媒体报道)
一个小站的自留地
MiniMax 发布 MiniMax-M2.5 2026 年 2 月 12 日,MiniMax 在官网宣布推出 MiniMax-M2.5。官方称,MiniMax-M2.5 经过数十万个真实复杂环境中的大规模强化学习 (Reinforcement Learning, RL) 训练,面向编程、工具调用与搜索、办公等生产力场景,目标是在真实世界任务中提升可交付性与执行效率。 在公开的基准结果中,MiniMax 表示 M2.5 在 SWE-Bench Verified 达到 80.2%,Multi-SWE-Bench…
MiniMax 发布 MiniMax M2.7

MiniMax 正式发布 M2.7 模型。这是 MiniMax 首个深度参与迭代自身的模型,标志着其开启了模型和组织的自我进化。

M2.7 能够自行构建复杂的智能体脚手架 (Agent Harness) ,并基于多智能体协作 (Agent Teams) 、复杂技能 (Skills) 以及工具搜索工具 (Tool Search Tool) 等能力,完成高度复杂的生产力任务。

在涵盖多种编程语言的 SWE-Pro 基准测试中,M2.7 取得了 56.22% 的正确率;在端到端项目交付测试 VIBE-Pro 和复杂工程系统测试 Terminal Bench 2 中,分别取得 55.6% 和 57.0% 的成绩。

在专业办公领域,M2.7 显著提升了对 Office 三件套 (Excel、PPT 和 Word) 的复杂编辑能力,支持多轮修改和高保真编辑。在金融领域,M2.7 可以自主阅读公司年报、交叉比对研报并构建营收预测模型。在互动娱乐场景中,凭借优秀的身份保持能力和情商,MiniMax 基于该模型构建并开源了智能体交互系统 OpenRoom,以探索人与智能体之间全新的交互方式。目前,MiniMax M2.7 已在 MiniMax Agent 与开放平台全量上线。

MiniMax
一个小站的自留地
OpenAI 发布 GPT-5.4 模型 3 月 6 日,OpenAI 正式发布 GPT-5.4,并同步推出 GPT-5.4 Pro。新模型已在 ChatGPT、API 和 Codex 上线,其中 ChatGPT 端名称为 GPT-5.4 Thinking,将逐步替代 GPT-5.2 Thinking;GPT-5.2 Thinking 将在 Legacy Models 保留至 2026 年 6 月 5 日后退役。 能力上,GPT-5.4 将 GPT-5.3-Codex 的编程能力与通用推理、工具调用、原生…
OpenAI 发布 GPT-5.4 mini 与 GPT-5.4 nano 模型

3 月 17 日 ,OpenAI 宣布推出 GPT-5.4 mini 与 GPT-5.4 nano 模型。

GPT-5.4 mini 在代码编写、推理、多模态理解和工具调用方面较前代产品有显著提升,运行速度提高了一倍以上。在 SWE-Bench Pro 和 OSWorld-Verified 等多项基准测试中,其表现接近体积更大的 GPT-5.4 模型。该模型尤其适合需要快速响应的代码助手、处理辅助任务的子代理以及需要实时理解图像的多模态应用程序。目前,GPT-5.4 mini 提供 400k 上下文窗口,开发者可通过 API 以及 Codex 获取该模型,在 Codex 中处理简单代码任务仅消耗 GPT-5.4 配额的 30% 。普通用户也可在 ChatGPT 的 + 菜单中通过「Thinking」功能使用该模型。

GPT-5.4 nano 是该系列中体积最小、成本最低的版本,同样较 GPT-5 nano 有大幅升级。它被推荐用于分类、数据提取、排序以及处理简单辅助任务的代码子代理。该模型仅通过 API 提供。

OpenAI
一个小站的自留地
Anthropic  正式发布  Claude Sonnet 4.6 Anthropic  正式发布  Claude Sonnet 4.6,官方称其为迄今最强的  Sonnet  模型。该模型在编程、长上下文推理、Agent  规划、知识工作及设计等领域全面升级,并提供支持  100 万  token 的上下文窗口(Beta 版)。价格维持每百万 token 输入  3  美元、输出  15  美元不变。 在编程方面,根据  Claude Code  的早期测试,约  70%  的开发者更偏好  Sonnet…
Claude Opus 4.6 和 Sonnet 4.6 上下文窗口正式开放,不再加收长上下文费用

Anthropic 宣布,Claude Opus 4.6 和 Sonnet 4.6 的 100 万词元 (Token) 上下文窗口现已正式面向所有用户开放 (GA),此前该功能处于需要手动添加 Beta 标头的测试阶段。

此次正式发布最大的变化在于取消了长上下文溢价,按统一费率计费:Opus 4.6 为每百万词元 5 美元输入 / 25 美元输出,Sonnet 4.6 为 3 美元输入 / 15 美元输出。此外,开发者无需再添加 Beta 标头,超过 20 万词元的请求将自动生效。

除定价调整外,本次更新还将单次请求可附带的图片和 PDF 页数上限从 100 提升至 600,扩大了 6 倍。该功能已在 Claude Platform、Microsoft Azure Foundry 和 Google Cloud Vertex AI 上线。对于 Claude Code 用户,Max、Team 和 Enterprise 订阅的 Opus 4.6 会话现在可自动使用完整的 100 万词元上下文窗口,这意味着更少的上下文压缩和更完整的对话保留。

在长上下文性能方面,Opus 4.6 在 MRCR v2 基准测试中取得 78.3% 的召回准确率,Sonnet 4.6 在 GraphWalks BFS 上取得 68.4%,Anthropic 称二者均为同等上下文长度下前沿模型中的最高分。

Anthropic
#推广

💎 特别优惠:
Cubence 是一家稳定高效的 AI 服务中转平台,为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务,有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣:在购买时使用优惠券 DING113CCH,可享受 10% 优惠折扣。
立即访问

💎 特别优惠:
PackyCode 是一家稳定、高效的 API 中转服务商,提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠,使用此链接注册并在充值时填写优惠码 WITHCCH,可享受 9 折优惠
立即访问

💎 特别优惠:
YesCode 是一家低调务实的 AI API 中转服务商,专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务,以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
立即访问

💎 特别优惠:
SSSAiCode 是一家稳定可靠的 API 中转站,致力于提供稳定、可靠、平价的 Claude、CodeX 模型服务。
SSSAiCode 为本软件的用户提供特别优惠,使用此链接注册可长期享受每次 10$ 的购买奖励
立即访问

💎 特别优惠:
AIGoCode 是一个集成了 Claude Code、Codex 以及 Gemini 最新模型的一站式平台,为你提供稳定、高效且高性价比的 AI 编程服务。提供灵活的订阅计划,可包月可套餐,零封号风险,国内直连,无需魔法,超大积分池,极速响应。
AIGoCode 为 CCH 的用户提供了特别福利,通过此链接注册的用户首次充值可以获得额外 10% 奖励额度 → 立即访问
一个小站的自留地
Google 发布 Gemini 3.1 Flash-Lite 模型 3 月 3 日,Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造,是目前 Google 旗下最具成本效益的 Gemini 模型,专门针对需要高并发、对延迟敏感的任务(如翻译和数据分类)进行了深度优化。 Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入,提供最高 100 万词元 (Token) 的上下文窗口,以及最高…
Google 推出首个全多模态嵌入模型 Gemini Embedding 2

Google DeepMind 宣布通过 Gemini API 和 Vertex AI 推出处于公开预览阶段的 Gemini Embedding 2 模型。这是 Google 首个基于 Gemini 架构构建的全多模态嵌入模型。

该模型将文本、图像、视频、音频和文档映射到一个统一的嵌入空间中,并能捕捉超过 100 种语言的语义意图。在具体输入规格上,文本支持高达 8192 个输入词元 (Token) 的上下文;图像单次请求最多支持处理 6 张图片,支持 PNG 和 JPEG 格式;视频支持长达 120 秒的 MP4 和 MOV 格式输入;音频可原生提取并嵌入,无需转换为中间文本;此外还支持直接嵌入最多 6 页的 PDF 文档。

与此前的嵌入模型类似,Gemini Embedding 2 引入了套娃表示学习 (Matryoshka Representation Learning, MRL) 技术,可通过动态缩小维度来嵌套信息,支持从默认的 3072 维灵活缩放输出维度,官方推荐使用 3072、1536 或 768 维度以获得最高质量。

Google Blog
一个小站的自留地
OpenAI 发布 GPT-5.3 Instant 模型 3 月 4 日,OpenAI 宣布推出 GPT-5.3 Instant 模型。作为 ChatGPT 日常使用频率最高的模型更新,GPT-5.3 Instant 重点改善了语气、相关性和对话流畅度,旨在提供更准确的回答及更优质的网络搜索整合结果。 该模型在多个方面进行了体验优化。首先,模型大幅减少了不必要的拒答和过度防御性的说教前言,能够更直接地提供有用信息。其次,在调用网络搜索时,GPT-5.3 Instant 能够更好地平衡网络信息与自身知识…
OpenAI 发布 GPT-5.4 模型

3 月 6 日,OpenAI 正式发布 GPT-5.4,并同步推出 GPT-5.4 Pro。新模型已在 ChatGPT、API 和 Codex 上线,其中 ChatGPT 端名称为 GPT-5.4 Thinking,将逐步替代 GPT-5.2 Thinking;GPT-5.2 Thinking 将在 Legacy Models 保留至 2026 年 6 月 5 日后退役。

能力上,GPT-5.4 将 GPT-5.3-Codex 的编程能力与通用推理、工具调用、原生 Computer Use 合并为单一模型,并支持更大规模的工具生态。官方称其在知识工作、浏览器与桌面操作、工具检索与多步骤任务上均有提升。核心指标包括:GDPval 83.0%(GPT-5.2 为 70.9%)、SWE-Bench Pro 57.7%(GPT-5.2 为 55.6%)、OSWorld-Verified 75.0%(GPT-5.2 为 47.3%,人类基准 72.4%)、BrowseComp 82.7%(GPT-5.4 Pro 为 89.3%)。

在办公场景中,GPT-5.4 的电子表格建模内部评测为 87.3%(GPT-5.2 为 68.4%),演示文稿盲测中有 68.0% 的对比样本被人工评审偏好。OpenAI 同日还发布了 ChatGPT for Excel add-in,并更新了 Codex/API 的 spreadsheet 与 presentation 技能。官方同时表示,GPT-5.4 在一组真实错误反馈提示词中,单条事实性错误概率较 GPT-5.2 下降 33%,整条回复含错概率下降 18%。

价格方面,API 中 gpt-5.4 定价为每百万词元 (Token) 输入 2.50 美元、输出 15 美元;gpt-5.4-pro 为输入 30 美元、输出 180 美元。

OpenAI
一个小站的自留地
OpenAI 发布 GPT-5.3-Codex OpenAI 于 2026 年 2 月 5 日发布了 GPT-5.3-Codex,官方称其为「迄今为止最强大的代理编程模型」。新模型结合了 GPT-5.2-Codex 的编程能力与 GPT-5.2 的推理及专业知识,推理速度较前代提升了 25%。值得注意的是,GPT-5.3-Codex 是首个在自身创造过程中发挥关键作用的模型 ——OpenAI 团队利用其早期版本调试了训练过程、管理了部署流程,并协助分析了测试结果。 在基准测试方面,该模型在 SWE-Bench…
OpenAI 发布 GPT-5.3 Instant 模型

3 月 4 日,OpenAI 宣布推出 GPT-5.3 Instant 模型。作为 ChatGPT 日常使用频率最高的模型更新,GPT-5.3 Instant 重点改善了语气、相关性和对话流畅度,旨在提供更准确的回答及更优质的网络搜索整合结果。

该模型在多个方面进行了体验优化。首先,模型大幅减少了不必要的拒答和过度防御性的说教前言,能够更直接地提供有用信息。其次,在调用网络搜索时,GPT-5.3 Instant 能够更好地平衡网络信息与自身知识,减少对搜索结果的过度依赖,避免输出冗长的链接列表。此外,模型进一步修正了过去偶尔出现的生硬或过度预设用户意图的语气,提供了更自然、流畅的交流体验,并在写作任务中展现出更强的连贯性和表现力。在事实准确性方面,根据 OpenAI 的内部评估,在医疗、法律和金融等高风险领域,该模型在使用网络搜索时的幻觉率下降了 26.8%,仅依赖内部知识时下降了 19.7%。

目前,GPT-5.3 Instant 已向所有 ChatGPT 用户开放,开发者也可通过 API 使用 gpt-5.3-chat-latest 访问该模型。针对 Thinking 和 Pro 版本的更新将于近期推出。此外,付费用户在未来三个月内仍可在旧版模型选项中访问 GPT-5.2 Instant,该模型将于 2026 年 6 月 3 日正式退役。

OpenAI
一个小站的自留地
Google 发布 Nano Banana 2 生图模型 2 月 27 日,Google DeepMind 宣布推出最新图像生成模型 Nano Banana 2 (gemini-3.1-flash-image-preview) 。 该模型将前代 Nano Banana Pro 的高质量与复杂逻辑推理能力,与 Gemini Flash 模型的生成速度相结合,旨在为用户提供更高效的图像创建与编辑体验。 Nano Banana 2 具备先进的世界知识,能够结合网络搜索的实时信息生成准确的图像、信息图表及数…
Google 发布 Gemini 3.1 Flash-Lite 模型

3 月 3 日,Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造,是目前 Google 旗下最具成本效益的 Gemini 模型,专门针对需要高并发、对延迟敏感的任务(如翻译和数据分类)进行了深度优化。

Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入,提供最高 100 万词元 (Token) 的上下文窗口,以及最高 64K 词元的文本输出。与前代的 Gemini 2.0 和 2.5 Flash-Lite 相比,新模型在响应质量、复杂指令遵循以及音频输入质量(如自动语音识别)等关键能力上实现了显著提升,整体性能表现已追平 Gemini 2.5 Flash。

此外,该模型还创新性地引入了灵活的思考支持功能。开发者可以根据具体用例,在极低、低、中、高四个推理级别中进行自由切换,从而在生成响应的质量与速度之间找到最佳平衡点。

目前,Gemini 3.1 Flash-Lite 的公开预览版已经上线,开发者可通过 Google Cloud 的 Vertex AI、Google AI Studio 以及 Gemini API 访问并体验该模型。

Google DeepMind
Back to Top