一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

13:59 · 2026年1月27日 · 周二

一个小站的自留地

Kimi 发布下一代基础大模型 k2 月之暗面于 2025 年 7 月 12 日发布并开源 Kimi K2 大模型，总参数量达 1 万亿，采用 MoE 架构，激活参数 32 亿。该模型支持 128K 最大上下文长度，在自主编程、工具调用和数学推理等基准测试中表现突出，取得开源模型 SOTA 成绩。模型技术亮点包括 MuonClip 优化器，在 15.5 万亿词元数据上实现稳定训练，以及大规模 Agentic 数据合成和通用强化学习；未来将加入思考和视觉理解能力。本次开源包括 Kimi-K2-Base（基础预训练模型）和…

Kimi 发布新一代开源模型 Kimi K2.5

月之暗面（Kimi）发布新一代开源模型 Kimi K2.5。该模型采用原生多模态架构，支持视觉与文本输入，将视觉理解与推理、编程和 Agent 能力集成于同一模型，并在 HLE（人类最后的考试）、BrowseComp、DeepSearchQA 等多项智能体评测中取得开源模型最佳成绩。

（kimi）

23:34 · 2026年1月26日 · 周一

一个小站的自留地

阿里巴巴开源 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 模型据通义大模型消息，阿里通义于 2026 年 1 月 8 日正式发布并开源 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 系列模型，采用 Apache 2.0 许可发布。该系列基于 Qwen3-VL 构建，定位多模态信息检索与跨模态理解，可用于图文、截图、视频等混合内容的匹配与检索。模型规格方面，当前开源版本包括 Qwen3-VL-Embedding-2B、Qwen3-VL…

阿里巴巴推出旗舰推理模型 Qwen3-Max-Thinking

Qwen 团队宣布推出最新旗舰推理模型 Qwen3-Max-Thinking。官方称其通过扩大参数规模并投入更多强化学习训练算力，在事实知识、复杂推理、指令遵循、人类偏好对齐与智能体能力等维度提升，并在 19 项基准测试中表现可与 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro 等顶尖模型对标。

这次更新的两项核心能力是「自适应工具调用」与「测试时扩展」。前者让模型在对话中可自主选择并调用内置搜索、记忆与代码解释器，不再依赖用户手动选工具。

后者属于推理阶段加算力的策略升级。Qwen 团队提出一种经验累积式、多轮迭代的测试时扩展方法：限制并行推理路径数量，把节省的计算资源用于由「经验提取」机制引导的迭代式自我反思，以减少重复推导、聚焦未解决的不确定性，并在相近 token 消耗下获得更高的上下文利用效率。官方给出的关键推理基准提升包括：GPQA 从 90.3 提升至 92.8，HLE 从 34.1 提升至 36.5，LiveCodeBench v6 从 88.0 提升至 91.4，IMO-AnswerBench 从 89.5 提升至 91.5，HLE（w/ tools）从 55.8 提升至 58.3。

Qwen3-Max-Thinking 已上线 Qwen Chat（chat.qwen.ai），同时开放 API（模型名为 qwen3-max-2026-01-23）

15:41 · 2026年1月24日 · 周六

一个小站的自留地

Anthropic 宣布推出 Claude Opus 4.5。其 API 定价是输入 5 美元 / 每百万 tokens、输出 25 美元 / 每百万 tokens。

Anthropic 发布 Claude in Excel 研究预览版

Anthropic 发布名为 Claude in Excel 的功能，现已作为研究预览版向 Claude Pro、Max、Team 及 Enterprise 计划用户开放。该功能能够理解整个 Excel 工作簿，包括嵌套公式和多标签页依赖关系，提供附带单元格级别引用的解答，并在保留公式的前提下更新假设。用户可在安装 Claude in Excel 插件后，通过快捷键在 Excel 中调用 Claude。

02:18 · 2026年1月23日 · 周五

一个小站的自留地

百度开源 ERNIE 4.5 大模型家族百度正式宣布开源其最新的旗舰级大模型系列 ERNIE 4.5，这是一个包含 10 个不同变体的大规模多模态模型家族。该系列包含 2 个多模态大模型和 4 个大语言模型，共计 23 个模型版本，其中最大模型拥有 4240 亿参数，47B 活跃参数。 ERNIE 4.5 采用了创新的异构多模态混合专家（MoE）架构，支持跨模态参数共享的同时，也为每个模态保留专用参数。这种设计在提升多模态理解能力的同时，实现了文本处理性能的同步增强。模型支持图像、视频和文本等多种输入模态，并生成文本输出。…

百度正式发布文心 5.0 模型

Baidu 宣布 ERNIE 5.0 正式上线，将其定位为「原生全模态」（native omni-modal）大语言模型，采用端到端架构，在同一模型内完成多模态理解与生成，覆盖文本、图像、音频与视频等输入输出形态。

在架构与效率上，ERNIE 5.0 采用 2.4 万亿参数的混合专家（Mixture of Experts, MoE）设计，并强调单次推理的激活参数占比低于 3%，以在保持推理与生成能力的同时降低推理成本、提升部署效率。

在获取方式上，ERNIE 5.0 已可通过 ERNIE Bot 官网使用；面向企业客户与开发者，则可通过千帆大模型平台接入。

（Baidu）

15:30 · 2026年1月17日 · 周六

一个小站的自留地

前端开发框架 Remix 的开发团队宣布了两个重要发展方向： React Router v7 已将 Remix 的核心功能完全整合进来，包括服务端渲染、代码分割和实验性的 React Server Components (RSC) 支持。这为现有的数百万 React Router 项目提供了升级到现代全栈开发的平滑路径。 RSC 是这次更新的亮点，它允许开发者在服务器端渲染组件，然后将结果传送到客户端，实现了更高效的数据加载和更好的性能表现。 Remix v3 将放弃 React 转而基于 Preact…

Astro 官方宣布正式被 Cloudflare 收购

1 月 16 日，云服务提供商 Cloudflare 正式宣布收购 Web 框架 Astro 背后的开发商 The Astro Technology Company。根据公告，Astro 核心团队将全员加入 Cloudflare，但 Astro 框架本身将继续保持开源运作，现有的 MIT 许可证、开放治理模式以及技术路线图均维持不变。

Astro 官方强调，框架将继续支持广泛的部署目标，不会锁定于 Cloudflare 平台；目前的 Astro 6 Beta 版本及 2026 年路线图也将按计划推进。

12:58 · 2026年1月15日 · 周四

一个小站的自留地

多家国内银行将于 1 月 15 日支持 Visa 卡绑定 Apple Pay 招商银行客服已确认将于 2026 年 1 月 15 日起支持将其发行的 Visa 信用卡添加到 Apple Pay；平安银行等多家国内银行据称也将于近期上线该功能。此前，中国大陆地区的 Apple Pay 服务主要对接银联，双标卡（银联 + Visa 等）在 Apple Pay 中通常仅启用银联通道。（综合媒体报道）

1 月 15 日，万事达卡在官方公众号发文称“一拍即 Pay，马上万事达”，宣布将“马上”支持苹果 Apple Pay。此前苹果已宣布拓展面向中国大陆用户的 Apple Pay 跨境支付能力，使大陆用户可使用本地发行的 Visa 信用卡与借记卡，在海外及线上支持免接触式（NFC）支付场景完成交易。

01:57 · 2026年1月13日 · 周二

一个小站的自留地

多家国内银行将于 1 月 15 日支持 Visa 卡绑定 Apple Pay 招商银行客服已确认将于 2026 年 1 月 15 日起支持将其发行的 Visa 信用卡添加到 Apple Pay；平安银行等多家国内银行据称也将于近期上线该功能。此前，中国大陆地区的 Apple Pay 服务主要对接银联，双标卡（银联 + Visa 等）在 Apple Pay 中通常仅启用银联通道。（综合媒体报道）

Gemini 将成为 Apple Intelligence 基础模型

当地时间 2026 年 1 月 12 日，Apple 与 Google 发布联合声明，确认双方达成多年期合作：下一代 Apple 基础模型将基于 Google 的 Gemini 模型与云技术构建，并用于驱动未来 Apple Intelligence 功能，包括今年上线更个性化的 Siri。

Reuters 报道称，Apple 将在今年晚些时候推出改版后的 Siri，并引入 Gemini 模型能力。这也让 Gemini 获得新的系统级分发入口：Apple 目前拥有超过 20 亿台活跃设备，而 Google 的相关技术此前已为三星「Galaxy AI」提供部分能力。

在隐私与运行位置方面，双方表示 Apple Intelligence 将继续运行在 Apple 设备端以及私有云计算 (Private Cloud Compute) 上，以维持其隐私标准。

合作条款未在声明中披露。Bloomberg 去年 11 月曾报道，Apple 计划按年支付约 10 亿美元使用一款定制 Gemini 模型，并提到该模型规模约为 1.2 万亿个参数。消息发布后，Alphabet 市值一度突破 4 万亿美元。

(综合媒体报道）

18:23 · 2026年1月10日 · 周六

一个小站的自留地

Apple Music 线上环境出现大规模配置事故，错误将歌词的翻译版本提供给所有版本用户。歌词翻译是 iOS 26 的新功能，在新版本中，歌词翻译是可选功能，且开启后用户应能看到源语言和本地语言的双语歌词。据大量用户实测，Android 等非第一方平台的 Apple Music 客户端不受影响。

多家国内银行将于 1 月 15 日支持 Visa 卡绑定 Apple Pay

招商银行客服已确认将于 2026 年 1 月 15 日起支持将其发行的 Visa 信用卡添加到 Apple Pay；平安银行等多家国内银行据称也将于近期上线该功能。

此前，中国大陆地区的 Apple Pay 服务主要对接银联，双标卡（银联 + Visa 等）在 Apple Pay 中通常仅启用银联通道。

（综合媒体报道）

22:37 · 2026年1月8日 · 周四

一个小站的自留地

阿里巴巴发布旗舰模型 Qwen3-Max 阿里巴巴发布旗舰模型 Qwen3-Max。该模型参数超过 1 万亿，使用 36T 词元 (Tokens) 进行预训练。其指令微调版本 Qwen3-Max-Instruct 在 LMArena 文本排行榜上名列第三，超越了 GPT-5-Chat。在代码生成基准 SWE-Bench Verified 和智能体 (agent) 工具调用基准 Tau2-Bench 上的得分也超越了 Claude Opus 4 等模型。目前 Qwen3-Max 已通过阿里云 API 和千问官网…

阿里巴巴开源 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 模型

据通义大模型消息，阿里通义于 2026 年 1 月 8 日正式发布并开源 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 系列模型，采用 Apache 2.0 许可发布。该系列基于 Qwen3-VL 构建，定位多模态信息检索与跨模态理解，可用于图文、截图、视频等混合内容的匹配与检索。

模型规格方面，当前开源版本包括 Qwen3-VL-Embedding-2B、Qwen3-VL-Embedding-8B，以及 Qwen3-VL-Reranker-2B、Qwen3-VL-Reranker-8B；序列长度均为 32K。以 Qwen3-VL-Embedding-8B 为例，其支持 30+ 语言，参数量 8B，默认向量维度最高 4096，并支持通过套娃表征学习 (Matryoshka Representation Learning, MRL) 输出自定义维度；模型卡同时提到支持对输出向量进行量化处理，并支持按任务自定义指令 (instruct)。官方评测称，在多数下游任务中加入指令通常可带来约 1%–5% 的提升，并建议多语言场景优先使用英文指令。

基准测试方面，模型卡披露了 MMEB-V2 与 MMTEB 等评测结果：在 MMEB-V2 的 78 个数据集综合统计中，Qwen3-VL-Embedding-8B 得分为 77.9，Qwen3-VL-Embedding-2B 为 73.4；在 MMTEB 统计中，Qwen3-VL-Embedding-8B 的 Mean (Task) 为 67.88。

（huggingface）

01:08 · 2026年1月8日 · 周四

#推广

💎 特别优惠：
Cubence 是一家稳定高效的 AI 服务中转平台，为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务，有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣：在购买时使用优惠券 DING113CCH，可享受 10% 优惠折扣。
→ 立即访问

💎 特别优惠：
PackyCode 是一家稳定、高效的 API 中转服务商，提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠，使用此链接注册并在充值时填写优惠码 WITHCCH，可享受 9 折优惠
→ 立即访问

💎 特别优惠：
YesCode 是一家低调务实的 AI API 中转服务商，专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务，以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
→ 立即访问

推广

21:24 · 2026年1月2日 · 周五

00:00 · 2026年1月1日 · 周四

祝频道订户和群友们新年快乐！

12:02 · 2025年12月29日 · 周一

一个小站的自留地

React Server Components 曝出严重远程代码执行漏洞 React 团队于当地时间 12 月 3 日发布安全公告，确认 React Server Components (RSC) 协议中存在一个严重的远程代码执行漏洞（CVE-2025-55182），CVSS 评分高达 10.0。该漏洞由 Lachlan Davidson 发现并报告，涉及 react-server-dom-webpack、react-server-dom-parcel 及 react-server-dom-turbopack…

MongoDB 披露严重安全漏洞 MongoBleed，涉及多版本未授权信息泄露

MongoDB 披露编号为 CVE-2025-14847 的高危安全漏洞，社区将其称为「MongoBleed」。该漏洞存在于 MongoDB Server 的 zlib 压缩消息解压缩处理逻辑中，允许未经验证的远程攻击者通过发送特制的恶意压缩包，诱导服务器返回未初始化的堆内存数据。由于该漏洞触发于身份验证之前，且无需任何用户交互，攻击者可借此窃取驻留在内存中的数据库凭据、应用令牌、WiredTiger 引擎配置及内部日志等敏感信息。

受影响版本范围广泛，包括已停止支持的 3.6、4.0、4.2 全系版本，以及 4.4.0–4.4.29、5.0.0–5.0.31、6.0.0–6.0.26、7.0.0–7.0.27、8.0.0–8.0.16 和 8.2.0–8.2.2。目前已出现公开的概念验证（PoC）代码及在野利用活动。

MongoDB 官方建议自建用户立即升级至 8.2.3、8.0.17、7.0.28、6.0.27、5.0.32 或 4.4.30 及以上修复版本；若短期无法升级，应在配置中通过 networkMessageCompressors 显式移除 zlib 以缓解风险。

（综合媒体报道）

11:24 · 2025年12月23日 · 周二

一个小站的自留地

智谱发布了 GLM-4.6 模型，主打编程能力。官方称其代码能力对标 Claude Sonnet 4，是编程能力最强的开源模型。与此同时，该模型上下文窗口增加到了 200k。

智谱推出 GLM-4.7 模型

智谱（Z.ai）于 12 月 23 日正式发布并开源其最新旗舰模型 GLM-4.7。该模型专为 Agentic Coding 场景优化，引入了增强的「思考模式」（Thinking Mode），包含 Interleaved Thinking、Preserved Thinking 和 Turn-level Thinking 三种机制，以提升复杂指令遵循和长程任务的稳定性。

在 LMArena Code Arena 盲测中，GLM-4.7 位列开源及国内模型首位；部分基准测试（如 LiveCodeBench V6 和 AIME 2025）成绩超越 Claude Sonnet 4.5 和 GPT-5.1。此外，模型强调 Vibe Coding 能力，显著增强了对 UI 规范的理解，能生成更具现代感的网页和幻灯片。

目前 GLM-4.7 权重已在 Hugging Face 和 ModelScope 开源，并上线 Z.ai。

——————

MiniMax Agent 平台上线 M2.1 模型

MiniMax 同日宣布在其 Agent 平台上线 M2.1 模型。该模型旨在通过「可见的状态管理」（Visible State Management）提升复杂问题解决能力与用户信任度，支持实时展示文件处理、工具调用、任务进度及决策逻辑。

官方表示，M2.1 是专门针对 Agent 协作和复杂任务处理设计的迭代版本，目前用户已可在其官方在线平台进行体验。

（综合媒体报道）

15:44 · 2025年12月22日 · 周一

Cubence

CUBENCE - Claude Code & Codex Gateway

Professional AI API gateway for Claude Code and Codex

推广

23:51 · 2025年12月17日 · 周三

一个小站的自留地

Google 发布 Gemini 3：推理能力大幅提升 Google DeepMind CEO Demis Hassabis 于 11 月 19 日宣布正式发布 Gemini 3 系列模型。作为 Google 目前最智能的模型，Gemini 3 Pro 现已推出预览版，其在 LMArena 排行榜上以 1501 Elo 的高分位居榜首，并在 Humanity’s Last Exam（37.5%）、GPQA Diamond（91.9%）以及数学基准测试 MathArena Apex（23.4%）中刷新了行业记录。…

Google 发布 Gemini 3 Flash

Google DeepMind 于 12 月 18 日发布 Gemini 3 Flash 模型，主打「前沿智能」与「极低成本」的结合。该模型在 GPQA Diamond（博士级推理）测试中得分 90.4%，在 Humanity's Last Exam 中无工具辅助得分 33.7%。值得注意的是，Gemini 3 Flash 在 MMMU Pro 多模态理解（81.2%）和 SWE-bench Verified 代码能力（78%）测试中的表现均超越了旗舰级的 Gemini 3 Pro。

效率方面，新模型相比 Gemini 2.5 Pro 速度提升 3 倍，日常任务的词元（Token）消耗减少 30%。定价方面，输入价格为 0.5 美元 / 100 万词元（合人民币约 3.63 元），输出为 3 美元 / 100 万词元（合人民币约 21.79 元）。

即日起，开发者可通过 Google AI Studio、Vertex AI 及新平台 Google Antigravity 调用该模型；普通用户可在 Gemini App（已取代 2.5 Flash 成为默认模型）及 Google 搜索的 AI 模式中免费体验。

（综合媒体报道）

14:03 · 2025年12月17日 · 周三

一个小站的自留地

Anthropic 宣布推出 Claude Opus 4.5。其 API 定价是输入 5 美元 / 每百万 tokens、输出 25 美元 / 每百万 tokens。

据未经证实的消息，Anthropic 即将发布 Claude 4.7 系列模型。

02:30 · 2025年12月17日 · 周三

一个小站的自留地

OpenAI 发布 GPT-5.2 模型系列 OpenAI 今日正式发布 GPT-5.2 模型系列，包含 Instant、Thinking 和 Pro 三个版本。其中 Instant 主打快速响应，Thinking 擅长深度推理与编程，Pro 则专注于解决高难度任务。在衡量真实工作能力的 GDPval 测试中，GPT-5.2 Thinking 取得了 70.9% 的胜率，成为首个在 44 种职业知识工作任务上达到或超过人类专家水平的模型；在抽象推理测试 ARC-AGI-2 中，其得分从前代的 17.6%…

OpenAI 推出新版 ChatGPT 图像生成模型 GPT-Image 1.5

OpenAI 于 12 月 16 日宣布推出新版 ChatGPT 图像生成功能，由全新的旗舰模型 GPT-Image 1.5 驱动。新版本在生成速度上最高提升 4 倍，并显著增强了指令遵循能力、编辑精度和画面细节的一致性。

（OpenAI）

Before

After

Home

个人博客

讨论组