起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/ygxz_group
一个小站的自留地
Anthropic 正式发布 Claude Opus 4.7 Anthropic 宣布其最新模型 Claude Opus 4.7 现已全面可用。 Opus 4.7 的视觉分辨率支持得到大幅加强,可识别长边高达 2576 像素(约 375 万像素)的图像,为此前型号的三倍以上。此外,新模型在处理专业任务时具备更出色的设计品味与创造力,能生成更高质量的界面、幻灯片和文档。 Opus 4.7 搭载了自动检测和拦截高风险网络安全请求的防护机制。Anthropic 明确表示,为进行风险控制,该模型的网络安全能力刻意保持在低于…
Anthropic 发布 Claude Opus 4.8
Anthropic 宣布将 Claude Opus 升级至 4.8 版本。新版本在各项基准测试中均有显著提升,并能更高效地进行协同工作。Claude Opus 4.8 现已全面上线,常规使用价格与上一代保持一致。

在网页端应用 claude.ai 及 Cowork 中,用户现在可以通过思考力度控制 (Effort control) 功能自主调节 Claude 执行任务时投入的精力。

面向开发场景,Claude Code 新增了动态工作流 (Dynamic workflows) 功能预览。该功能允许 Claude 在单次会话中规划任务,并运行数百个平行的子智能体 (Subagent) ,以应对诸如数十万行级别的代码库迁移等超大规模问题。此外,消息 API (Messages API) 现已接受在消息数组中直接包含系统条目。开发者可在任务中途随时更新权限、词元预算或环境上下文,而不会破坏提示词缓存 (Prompt cache) 或干扰用户的交互轮次。

另外,Fast mode 在提供 2.5 倍运行速度的同时,调用成本已降至以往模型的三分之一,为每百万输入词元 10 美元,每百万输出词元 50 美元。

Anthropic 还透露,团队目前正致力于研发具备类似 Opus 能力但成本更低的模型。此外,更具智能的全新模型系列也在推进之中。其中,具有更高安全防护级别的 Claude Mythos Preview 目前已通过 Project Glasswing 项目在部分机构的网络安全工作中进行初步应用,预计将在未来几周内向所有用户正式开放

模型发布前,Anthropic 重置了所有付费订阅套餐的周限额。

Anthropic
一个小站的自留地
据市场消息,Google 将于 5 月 19 日的 Google I/O 期间发布 Gemini 3.2 Pro 和 Gemini 3.2 Flash 模型。此前也有用户报告称在 iOS 客户端上被灰度到 Gemini 3.2 Flash 模型。 另有用户于 V2EX 报告称在 Codex 上被灰度到 gpt-5.6 模型,但目前并无其他来源可交叉验证。
Google I/O 2026 汇总

当地时间 2026 年 5 月 20 日,Google 举办了主题为「agentic era」的年度开发者大会。

在基础模型方面,Google 推出了最新的 Gemini 3.5 Flash。该模型的输出速度达到 289 tok/s,拥有 100 万词元 (Token) 的上下文窗口。新模型在多项基准测试中超越了上一代旗舰 3.1 Pro,而应用程序接口 (API) 的调用成本则降低了一半以上,且已在各个终端成为默认模型。此外,能够理解并模拟真实世界物理规则的世界模型 Gemini Omni 正式亮相,实现了从文本、图片、视频到音频的任意跨模态输入与输出,其首发版本 Gemini Omni Flash 现已上线。

面向开发者,Google 宣布推出以智能体为优先的开发平台 Antigravity 2.0。该平台围绕任务、项目和对话构建,涵盖桌面应用、命令行程序 (CLI)、软件开发工具包以及托管智能体四种产品形态。它支持多智能体并行编排,能大幅提升复杂任务的处理效率。为配合新平台上线,原有的 Gemini CLI 等开发插件将于当年 6 月 18 日停止服务。

在消费端体验上,新推出的 Gemini Spark 将作为私人智能体运行在专属的云端虚拟机上,为用户提供跨应用的全天候后台任务处理能力,与之相伴的是每月 100 美元的新 Ultra 订阅计划。同时,Google 搜索迎来了 25 年来最大的一次改版。全新的多模态搜索框正式全球上线,并即将引入能在后台持续收集信息的 Search Agents,以及能够实时生成交互界面的生成式用户界面功能。

为了打通由智能体代办的购物体验,Google 联合多家行业巨头推出了通用商业协议 (UCP)、代理支付协议 (AP2) 以及跨平台统一购物车,共同为智能体网络购物确立了通用语言、安全支付边界和价格追踪机制。此外,旗下的 Gemini 应用也迎来了名为 Neural Expressive 的全面重设计,带来流体动画并支持实时生成定制化的交互卡片。

(综合媒体报道)
一个小站的自留地
Linux 内核披露 Copy Fail 本地提权漏洞 安全研究人员于 2026 年 4 月 29 日公开披露了名为 Copy Fail 的 Linux 内核高危漏洞 (CVE-2026-31431) 并详细说明了其作用机制。该漏洞源于 2017 年引入的 algif_aead 就地 (In-place) 优化机制,涉及内核加密子系统中的 AF_ALG、algif_aead 以及 authencesn 交互路径。 利用该漏洞,本地低权限用户可以向受影响系统上任意可读文件的页面缓存 (Page cache)…
NGINX 披露漏洞「NGINX Rift」

2026 年 5 月 13 日,NGINX 官方发布安全更新,修复了存在于 ngx_http_rewrite_module 模块中的堆缓冲区溢出漏洞(CVE-2026-42945),该漏洞被安全研究团队 depthfirst 称为「NGINX Rift」。

该漏洞影响范围最早可追溯至 2008 年发布的 0.6.27 版本。未经身份验证的远程攻击者可以通过发送精心构造的 HTTP 请求,触发 NGINX 工作进程(Worker Process)崩溃导致拒绝服务。在关闭或绕过地址空间布局随机化(ASLR)的系统上,该漏洞可进一步实现远程代码执行(RCE)。目前,互联网上已出现针对该漏洞的PoC。

漏洞的触发依赖于特定的配置组合:当 NGINX 配置中使用了包含未命名捕获组(如 $1、$2)且替换字符串中带有问号(?)的 rewrite 指令,且该指令后紧跟另一个 rewrite、if 或 set 指令时,即处于高风险状态。技术根因在于 NGINX 在处理此类复杂重写逻辑时,对 URI 参数转义后的长度计算与实际写入操作不一致,导致内存溢出。

NGINX 开源版 1.30.1(稳定版)和 1.31.0(开发版)已修复此问题。NGINX Plus R32 P6、R36 P4 及相关 F5 产品也已发布补丁。对于无法立即升级的系统,官方建议将配置中的「未命名捕获组」修改为「命名捕获组」以缓解风险。

(综合媒体报道)
一个小站的自留地
有用户发现,DeepSeek 的官方 API 疑似更新了模型版本,模型现在会回答「知识截止日期是 2025 年 5 月,上下文长度可以达到 1M」等信息,与先前官网提供的长上下文测试模型能力一致。 另有消息称,DeepSeek 可能会在本周四公开新模型。而根据市场预测,OpenAI 也将在本周四发布 gpt-5.5 模型。
据市场消息,Google 将于 5 月 19 日的 Google I/O 期间发布 Gemini 3.2 Pro 和 Gemini 3.2 Flash 模型。此前也有用户报告称在 iOS 客户端上被灰度到 Gemini 3.2 Flash 模型。

另有用户于 V2EX 报告称在 Codex 上被灰度到 gpt-5.6 模型,但目前并无其他来源可交叉验证。
一个小站的自留地
开源 AI 网关 LiteLLM 修复认证前 SQL 注入等三个高危漏洞 LiteLLM 在 1.83.7 版本中修复三个高危漏洞,均影响 <1.83.7 版本。 CVE-2026-42208(CVSS v4.0 9.3 Critical)是认证前 SQL 注入,攻击者可通过特制 Authorization header 读取或修改数据库,获取代理密钥和上游模型供应商凭证,受影响版本 >=1.81.16; CVE-2026-42203 是 /prompts/test 端点服务端模板注入,需有效 proxy…
TanStack 遭供应链攻击,42 个 npm 包被植入窃密载荷

5 月 12 日,前端开源项目 TanStack 遭受 npm 供应链攻击。攻击者利用 GitHub Actions 工作流的配置缺陷,通过缓存投毒和提取 OIDC Token 的方式,绕过常规发布流程,向 npm 注册表直接发布了 42 个 @tanstack/* 包的 84 个恶意版本。

当开发者安装受污染的 npm 包时,会触发一个伪装成 GitHub URL 依赖的恶意载荷。该程序在后台隐蔽运行,尝试窃取运行环境中的 AWS、GCP、Kubernetes、GitHub、npm 和 SSH 等关键凭据,并具备向其他 npm 包扩散的自传播能力。GitHub 安全公告已将此次事件评为严重级别。

TanStack 官方确认,受影响时间窗口大约在北京时间 2026 年 5 月 12 日 03:20 至 03:30。官方建议,任何在此期间安装过受影响版本的开发机或持续集成环境,都应被视为凭据已泄露。开发者需立即轮换所有可被访问的敏感凭据,彻底删除旧的依赖包与锁定文件,并升级至官方已修复的安全版本。

安全机构的研究指出,此次入侵并非孤立事件,而是被称为 Mini Shai-Hulud 大规模 npm 蠕虫活动的一部分。除 TanStack 外,该活动还波及了 UiPath、Mistral 等多个知名开源包族,其传播逻辑与此前 Intercom、Lightning AI、SAP CAP 相关供应链事件中观察到的技术相似。

TanStack
一个小站的自留地
axios 遭复杂供应链攻击 2026 年 3 月 31 日,安全机构 StepSecurity 发现,广泛使用的 JavaScript HTTP 客户端库 axios 在 npm 上被发布了两个恶意版本 (1.14.1 和 0.30.4),均通过被盗的首席维护者凭据发布,绕过了项目正常的 CI/CD 流程。 攻击者将维护者账号邮箱篡改为一个 ProtonMail 匿名地址,并利用该账号的长期有效 npm 访问令牌通过命令行手动发布。在此之前,攻击者已从另一个一次性账号预先发布了恶意依赖 plain-crypto…
Canvas 遭黑客组织攻击致全球多所高校受影响

教育科技公司 Instructure 确认旗下学习管理平台 Canvas 遭到未授权访问和数据窃取。4 月 29 日的初步调查显示,部分用户的姓名、电子邮件地址、学生 ID 以及 Canvas 用户之间的消息已被外泄。目前尚未发现密码、出生日期或金融信息卷入其中。

5 月 7 日 ,攻击者篡改了多所学校的 Canvas 登录页面并植入勒索留言,迫使平台紧急进入维护模式,导致全球大量高校的在线学习和考试系统陷入停摆。Instructure 随后通过临时关闭相关的免费教师账户来切断攻击路径,并采取了撤销访问 Token、轮换内部密钥等一系列防护措施。

此次综合安全事件被指由黑客组织 ShinyHunters 实施。该组织在其站点上宣称窃取了涉及近 9000 所机构、约 2.75 亿人的 3.65 TB 数据,并以 2026 年 5 月 12 日为限,威胁各机构与之协商,否则将公开泄露数据。不过,Instructure 官方尚未出面证实上述受影响的具体规模与数据量。

事件适逢多国高校的期末考试周,哈佛大学、伊利诺伊大学香槟分校、宾夕法尼亚州立大学、悉尼大学等知名学府均受波及。多所大学不得不紧急推迟期末考试和作业提交期限,并为学生安排替代形式的考核。

(综合媒体报道,图:CBS
一个小站的自留地
Node.js 26 发布 Node.js 26 已于 2026 年 5 月 5 日正式发布,版本号为 v26.0.0,当前处于 Current 状态,预计将在 2026 年 10 月进入 LTS。这是旧的半年发布节奏下的最后一个大版本,从 Node.js 27 开始将转向一年一个大版本的模式。 此次更新的三大核心变化包括:Temporal API 默认启用,无需通过 flag 开启;V8 引擎升级到 14.6.202.33,带来 Map.prototype.getOrInsert()、WeakMap…
Rolldown 1.0 正式发布

基于 Rust 编写的高性能 JavaScript 打包工具 Rolldown 正式发布 1.0 稳定版,标志着其 API 已经稳定并可用于生产环境。从 Vite 8 开始,Rolldown 已经成为 Vite 默认的底层打包工具,直接惠及广大 Vite 用户。

Rolldown 的核心目标之一是统一 Vite 之前的双打包工具架构。它结合了现有工具的优势,不仅提供了媲美 esbuild 的打包速度,在项目规模增大时甚至比 Rollup 快 10 到 30 倍,而且保持了对 Rollup 插件的兼容,使得开发者可以无缝迁移并继续使用现有的插件生态。

为了进一步提升性能,Rolldown 引入了钩子过滤器 (hook filters) 以避免在无匹配项时发生不必要的 Rust 与 JavaScript 之间的环境切换,并内置了针对 Rollup 生态常用依赖的原生插件替代方案。

开发团队还透露了接下来的重点工作方向,其中包括为 Vite 引入全打包模式 (full bundle mode) 。该模式旨在解决随着代码库增长,大量未打包的 ECMAScript 模块 (ECMAScript Modules, ESM) 网络请求带来的开发环境页面加载缓慢问题。

voidzero.dev
Node.js 26 发布

Node.js 26 已于 2026 年 5 月 5 日正式发布,版本号为 v26.0.0,当前处于 Current 状态,预计将在 2026 年 10 月进入 LTS。这是旧的半年发布节奏下的最后一个大版本,从 Node.js 27 开始将转向一年一个大版本的模式。

此次更新的三大核心变化包括:Temporal API 默认启用,无需通过 flag 开启;V8 引擎升级到 14.6.202.33,带来 Map.prototype.getOrInsert()、WeakMap.prototype.getOrInsert()、Iterator.concat() 等新特性;Undici 升级到 8.0.2,影响内置 fetch 和 HTTP 客户端行为。

Temporal 是 JavaScript 新的日期时间 API,旨在替代存在设计缺陷的 Date API。它能更准确地处理时区、日历系统、时间运算等场景,对排程、计费、日志、跨时区业务等应用场景价值显著。

值得注意的是,从 Node.js 25 开始,Corepack 不再随 Node.js 分发。从 Node.js 24 LTS 升级的团队需要显式安装 corepack 包,或调整包管理器的安装方式。

Node.js 26 预计在 2026 年 10 月 28 日进入 LTS,2027 年 10 月 20 日进入 Maintenance,2029 年 4 月 30 日结束生命周期,LTS 代号为 Lithium。另外,Node.js 20 已于 2026 年 4 月 30 日结束维护。
#推广

💎 特别优惠:
Cubence 是一家稳定高效的 AI 服务中转平台,为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务,有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣:在购买时使用优惠券 DING113CCH,可享受 10% 优惠折扣。
立即访问

💎 特别优惠:
PackyCode 是一家稳定、高效的 API 中转服务商,提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠,使用此链接注册并在充值时填写优惠码 WITHCCH,可享受 9 折优惠
立即访问

💎 特别优惠:
YesCode 是一家低调务实的 AI API 中转服务商,专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务,以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
立即访问

💎 特别优惠:
AIGoCode 是一个集成了 Claude Code、Codex 以及 Gemini 最新模型的一站式平台,为你提供稳定、高效且高性价比的 AI 编程服务。提供灵活的订阅计划,可包月可套餐,零封号风险,国内直连,无需魔法,超大积分池,极速响应。
AIGoCode 为 CCH 的用户提供了特别福利,通过此链接注册的用户首次充值可以获得额外 10% 奖励额度
立即访问

💎 特别优惠:
感谢 AICodeMirror 对本项目的赞助!AICodeMirror 提供 Claude Code / Codex / Gemini CLI 官方高稳定性中转服务,支持企业级并发、快速开票、7×24 小时专属技术支持。Claude Code / Codex / Gemini 官方渠道价格低至原价的 38% / 6% / 9%,充值还有额外折扣!针对 claude-code-hub 用户,AICodeMirror 特别推出福利:通过下方链接注册,首充立享 8 折 优惠;企业客户更可享受最高 7.5 折 折上折。
立即访问

💎 特别优惠:
PatewayAI 是一家面向重度 AI 开发者、专注官方直连的高品质模型 API 中转服务商。提供 Claude 全系列与 Codex 系列模型,100% 官方源直供,不掺假不注水,欢迎检验。计费透明,Token 级账单可逐笔核验。
同时支持企业级高并发,并为企业客户提供了专业的管理平台,企业客户可签订正式合同并开具发票,更多详情进入官网获取联系方式。
现在通过 此链接注册 即送 $3 试用额度,用户充值低至 6 折,邀请好友双向赠送,邀请奖励可达 $150。
立即访问
Linux 内核披露 Copy Fail 本地提权漏洞

安全研究人员于 2026 年 4 月 29 日公开披露了名为 Copy Fail 的 Linux 内核高危漏洞 (CVE-2026-31431) 并详细说明了其作用机制。该漏洞源于 2017 年引入的 algif_aead 就地 (In-place) 优化机制,涉及内核加密子系统中的 AF_ALG、algif_aead 以及 authencesn 交互路径。

利用该漏洞,本地低权限用户可以向受影响系统上任意可读文件的页面缓存 (Page cache) 中写入受控的 4 字节数据。由于写入操作仅发生在内存层面且不修改磁盘文件本身,攻击者可以避开常规的文件完整性校验机制。随后,攻击者通过污染 setuid-root 程序的内存缓存副本便可实现本地提权并获取 root 权限。这对多租户主机、共享开发机和 CI 运行器等环境构成了严重威胁。

目前 kernel.org 已将该漏洞的 CVSS 在 v3.1 标准下的评级定为 7.8 分的高危级别。官方已通过将相关操作恢复为异地 (Out-of-place) 的方式修复了此问题,并且补丁已进入主线及稳定分支。主流发行版如 Ubuntu、Debian、SUSE 和 Amazon Linux 正在陆续发布安全更新。建议用户尽快将内核更新至已修复版本并重启系统。若暂时无法更新,用户可考虑禁用 algif_aead 模块或通过 seccomp 限制不可信工作负载创建 AF_ALG 套接字 (Socket) 来作为临时缓解方案。

(综合媒体报道)
一个小站的自留地
LiteLLM 仓库遭受供应链攻击 LLM 代理工具 LiteLLM 遭受名为 TeamPCP 的威胁行为者发起的供应链攻击。攻击者在 Python 软件包索引 (Python Package Index, PyPI) 发布了包含信息窃取程序的 1.82.7 和 1.82.8 恶意版本,上述版本在暴露约 3 小时后被官方隔离。 攻击者首先利用外泄的个人访问令牌 (Personal Access Token, PAT) ,在开发商 BerriAI 的 GitHub 仓库中推送了恶意的 GitHub Actions…
开源 AI 网关 LiteLLM 修复认证前 SQL 注入等三个高危漏洞

LiteLLM 在 1.83.7 版本中修复三个高危漏洞,均影响 <1.83.7 版本。

CVE-2026-42208(CVSS v4.0 9.3 Critical)是认证前 SQL 注入,攻击者可通过特制 Authorization header 读取或修改数据库,获取代理密钥和上游模型供应商凭证,受影响版本 >=1.81.16;

CVE-2026-42203 是 /prompts/test 端点服务端模板注入,需有效 proxy API key 即可 RCE,受影响版本 >=1.80.5;

CVE-2026-42271 是 MCP stdio test endpoints 认证后命令执行,低权限用户可在代理主机执行任意命令,受影响版本 >=1.74.2。

Sysdig 已观测到 CVE-2026-42208 的针对性利用尝试,攻击者在公告发布后 36 小时内开始枚举高价值数据库表。官方建议升级到 1.83.7 或更高版本,曾公网暴露的实例应轮换所有凭证并审计账单。

Sysdig
一个小站的自留地
DeepSeek 新模型已经可以在 DeepSeek 官网或手机端使用,1M 上下文,不支持多模态,知识截止日期到 2025 年 5 月。 —————— 深度求索客服称,「DeepSeek 网页/ APP 正在测试新的长文本模型结构,支持 1M 上下文。 注意:API 服务不变,仍为 V3.2,仅支持 128K 上下文。 感谢各位的持续关注~祝新年快乐」
深度求索发布 DeepSeek-V4 系列模型

4 月 24 日,深度求索宣布推出并同步开源全新一代大语言模型 DeepSeek-V4 预览版。该系列模型按参数规模分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本,不仅在智能体能力、世界知识和推理性能上实现开源领域领先,更全面迈入一百万词元 (Token) 超长上下文的普惠时代。

在性能表现上,包含 1.6 万亿参数、激活参数为 490 亿的 DeepSeek-V4-Pro 模型在数学、STEM 及竞赛型代码的评测中超越了当前所有已公开评测的开源模型,取得了比肩国际顶级闭源大语言模型的优异成绩。其在智能体编程任务上的表现逼近 Opus 4.6 的水平。另一款包含 2840 亿参数、激活参数为 130 亿的 DeepSeek-V4-Flash 模型则凭借更小的激活参数量,提供更加快捷和经济的 API 服务,并在简单智能体任务上与 Pro 版本旗鼓相当。

架构层面,DeepSeek-V4 首创混合注意力机制,将压缩稀疏注意力 (CSA) 与重度压缩注意力 (HCA) 相结合,并引入了流形约束超连接 (mHC) 与 Muon 优化器。配合对模型专家权重的 FP4 量化感知训练,新架构大幅降低了计算和显存需求。在一百万词元上下文场景下,DeepSeek-V4-Pro 的单词元推理计算量仅为前代 V3.2 版本的 27%,KV 缓存仅为 10%。

目前,用户已可通过官方网站或应用体验新模型。API 服务也已同步更新,最大上下文长度均为一百万词元,并同时支持非思考模式与思考模式。

深度求索
一个小站的自留地
OpenAI 发布 ChatGPT Images 2.0 OpenAI 发布全新图像生成模型 ChatGPT Images 2.0,Sam Altman 称此更新「就像从 GPT-3 一步跳到了 GPT-5」。该模型首次引入 Thinking 能力,提供 Instant 与 Thinking 两种生成模式。Instant 模式已向所有用户开放,覆盖 ChatGPT、Codex 及 API 入口,主打快速响应;Thinking 模式则需 Plus、Pro 或 Business 订阅,可在生成前实时联网搜索…
OpenAI 发布了 GPT-5.5 及 GPT-5.5 Pro。

在性能方面,GPT-5.5 在现实服务中保持了与 GPT-5.4 相同的单词元 (Token) 延迟,但智能水平大幅提升,且完成相同 Codex 任务所需的词元数量显著减少。该模型在智能体编程、计算机操作、知识工作和早期科学研究领域的提升尤为明显。在 Terminal-Bench 2.0 测试中,GPT-5.5 取得了 82.7% 的准确率;在 SWE-Bench Pro 测试中达到 58.6%。此外,GPT-5.5 还在 GeneBench 等科学数据分析基准测试中表现优异。

安全与网络安全方面,GPT-5.5 配备了 OpenAI 迄今最严格的安全防护机制。OpenAI 正在部署更严格的潜在网络风险分类器,并推出针对网络防御的信任访问机制。负责保护关键基础设施的组织可以申请使用如 GPT-5.4-Cyber 等允许网络操作的模型。

可用性与定价方面,GPT-5.5 目前正向 ChatGPT 和 Codex 的 Plus、Pro、Business 和 Enterprise 用户逐步开放。GPT-5.5 Pro 专为处理更高难度和更高准确度要求的任务设计,正向 ChatGPT 的 Pro、Business 和 Enterprise 用户开放。

在 API 方面,gpt-5.5 即将推出并提供 100 万词元的上下文窗口。其输入价格为每 100 万词元 5 美元 且输出价格为每 100 万词元 30 美元 ;gpt-5.5-pro 的输入价格为每 100 万词元 30 美元且输出价格为每 100 万词元 180 美元 。Codex 中的 GPT-5.5 将提供 40 万词元的上下文窗口,并支持速度提升 1.5 倍但成本为 2.5 倍的快速模式。

OpenAI
Xiaomi MiMo-V2.5 系列大模型开启公测

Xiaomi 发布了 MiMo-V2.5 系列大模型,包含 MiMo-V2.5、MiMo-V2.5-Pro、MiMo-V2.5-TTS Series 和 MiMo-V2.5-ASR 四款模型。官方表示本次更新实现了模型从能用到好用的全面跨越,重点提升了推理能力、智能体 (Agent) 稳定性、上下文长度以及全模态感知与理解。

MiMo-V2.5-Pro 主打通用智能体能力、复杂软件工程和长程任务。MiMo-V2.5 则具备百万上下文窗口。在同等评测分数下,Pro 版本比 Kimi K2.6 节省了 42% 的词元,标准版比 Muse Spark 节省了 50%。

小米还宣布, MiMo-V2.5-Pro 和 MiMo-V2.5 模型即将全球开源。

Xiaomi MiMo
一个小站的自留地
DeepSeek 新模型已经可以在 DeepSeek 官网或手机端使用,1M 上下文,不支持多模态,知识截止日期到 2025 年 5 月。 —————— 深度求索客服称,「DeepSeek 网页/ APP 正在测试新的长文本模型结构,支持 1M 上下文。 注意:API 服务不变,仍为 V3.2,仅支持 128K 上下文。 感谢各位的持续关注~祝新年快乐」
有用户发现,DeepSeek 的官方 API 疑似更新了模型版本,模型现在会回答「知识截止日期是 2025 年 5 月,上下文长度可以达到 1M」等信息,与先前官网提供的长上下文测试模型能力一致。

另有消息称,DeepSeek 可能会在本周四公开新模型。而根据市场预测,OpenAI 也将在本周四发布 gpt-5.5 模型。
一个小站的自留地
OpenAI 的最新图像生成模型 GPT Image 2 据称已在 ChatGPT 全量上线。包含 Free 账户在内的大多数账户都已可用。该模型显著增强了复杂场景、文字生成、UI 生成场景的性能,也解决了前代的偏色问题。 OpenAI 将于今晚直播发布会。
OpenAI 发布 ChatGPT Images 2.0

OpenAI 发布全新图像生成模型 ChatGPT Images 2.0,Sam Altman 称此更新「就像从 GPT-3 一步跳到了 GPT-5」。该模型首次引入 Thinking 能力,提供 Instant 与 Thinking 两种生成模式。Instant 模式已向所有用户开放,覆盖 ChatGPT、Codex 及 API 入口,主打快速响应;Thinking 模式则需 Plus、Pro 或 Business 订阅,可在生成前实时联网搜索、规划图像结构并执行自我核查,单次提示最多输出 8 张保持角色与对象连贯性的图像。

新模型的指令跟随精度大幅提升,支持复杂构图、小号文字、图标及 UI 元素,API 端最高支持 2 K 分辨率。其多语言文本渲染能力显著改善,对中文、日文、韩文等非拉丁文字的排版尤为准确。模型知识截止于 2025 年 12 月,在生成信息图、教育图表等内容时具备更好的时效性。此外,它支持 3:1 至 1:3 的灵活宽高比,并已直接集成至 Codex 工作区。

在大模型竞技场(Chatbot Arena)中,ChatGPT Images 2.0 已登顶图像生成榜单,并在文本到图像任务中领先第二名 Nano Banana 2 达 240 分。目前,Canva、Figma、Adobe 与 OpenArt 已宣布接入 gpt-image-2 API,开发者无需离开现有工作流即可直接调用。

(综合媒体报道)
一个小站的自留地
月之暗面通过邮件宣布,K2.6-code-preview 新模型即将全量推出。 此前,月之暗面通过 Kimi Code 抢先体验计划向部分用户开放了该模型的访问权限。
Kimi K2.6 开源发布

月之暗面 (Moonshot AI) 发布并开源了最新模型 Kimi K2.6,主打编程、长时程任务执行和智能体集群 (Agent Swarm) 能力。该模型现已通过 Kimi.com、Kimi App、API 及 Kimi Code 提供使用。

在编程能力方面,Kimi K2.6 在 SWE-Bench Pro 上得分 58.6,超过 GPT-5.4 的 57.7 和 Claude Opus 4.6 的 53.4;Terminal-Bench 2.0 得分 66.7,与 GPT-5.4 和 Claude Opus 4.6 的 65.4 持平;SWE-Bench Multilingual 得分 76.7,接近 Claude Opus 4.6 的 77.8。不过在 SciCode (52.2 vs 58.9)、OJBench (60.6 vs 70.7)、LiveCodeBench v6 (89.6 vs 91.7) 等基准上,Gemini 3.1 Pro 仍保持领先。

在通用智能体基准上,Kimi K2.6 在 Humanity's Last Exam (带工具) 上以 54.0 领先 GPT-5.4 的 52.1 和 Claude Opus 4.6 的 53.0;DeepSearchQA F1 得分 92.5,大幅领先 GPT-5.4 的 78.6。但在 BrowseComp 上 Gemini 3.1 Pro 以 85.9 领先 Kimi K2.6 的 83.2,Toolathlon 上 GPT-5.4 以 54.6 领先 Kimi K2.6 的 50.0。在推理与知识类基准上,Kimi K2.6 与头部模型仍有差距,如 HLE-Full 得分 34.7,低于 Gemini 3.1 Pro 的 44.4 和 Claude Opus 4.6 的 40.0。

多家企业在测试评价中给予正面反馈。Vercel 表示 K2.6 在其 Next.js 基准上相比 K2.5 提升超过 50%,跻身平台表现最佳的模型之列;CodeBuddy 的内部评估显示代码生成准确率提升 12%,长上下文稳定性提升 18%,工具调用成功率达 96.60%。Ollama 也表示 K2.6 将开箱支持其所有集成。

Kimi
一个小站的自留地
阿里推出  Qwen3.6 Plus Preview  和 Qwen3.5-Omni  系列大模型 阿里 Qwen 团队在 OpenRouter 平台正式上线了  Qwen3.6 Plus Preview  模型。该模型作为  Qwen Plus  系列的下一代演进版本,采用先进的混合架构以提升效率与可扩展性。其支持高达  1,000,000 token 的上下文窗口以及最大  65,536 tokens 的输出。 模型预览期间,开发者可以在 OpenRouter、OpenCode 和 Kilo Code…
通义千问发布下一代旗舰模型早期预览版 Qwen3.6-Max-Preview

继 Qwen3.6-Plus 之后,阿里云通义千问团队发布了下一代旗舰模型的早期预览版 Qwen3.6-Max-Preview。官方表示,该模型在智能体编程、世界知识和指令遵循三个方面相比 Qwen3.6-Plus 均有显著提升。

在智能体编程方面,Qwen3.6-Max-Preview 在六项主要编程基准上取得最高分,包括 SWE-bench Pro (57.3)、Terminal-Bench 2.0 (65.4)、SkillsBench (55.6)、SciCode (47.0) 等,相比 Qwen3.6-Plus 分别提升了约 0.7、3.8、9.9、10.8 个百分点。在世界知识方面,SuperGPQA 得分达到 73.9,QwenChineseBench 达到 84.0,分别提升 2.3 和 5.3。指令遵循基准 ToolcallFormatIFBench 得分 86.1,提升 2.8。

从评测图表来看,对比模型还包括 Qwen 3.5 Plus、Claude 4.5 Opus 和 GLM 5.1。Qwen3.6-Max-Preview 在多数基准上领先,但在 SWE-bench Pro 上 GLM 5.1 以 58.4 略高于其 57.3,QwenWebBench 上 GLM 5.1 以 1558 的 Elo 评分也略高于其 1532。

用户目前可通过 Qwen Studio (chat.qwen.ai) 体验该模型,后续将通过阿里云百炼 API 以「qwen3.6-max-preview」的名称提供调用。本次发布还支持 preserve_thinking 功能,可在多轮对话中保留前序轮次的思维内容,官方推荐将其用于智能体任务。

通义千问
Back to Top