一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

10:20 · 2025年3月15日 · 周六

一个小站的自留地

阿里云新加坡机房 10 日发生火灾北京时间 2024 年 9 月 10 日 10:20，阿里云监控发现新加坡地域可用区 C 出现网络访问异常，部分云产品服务因此中断。根据阿里云发布的公告，此次事故由新加坡机房内锂电池爆炸引发火灾，导致机房温度急剧升高。目前，消防人员已抵达现场进行处理，但由于火情复杂，部分云产品的恢复工作仍在进行中。阿里云健康看板显示，目前新加坡区域仍有服务未恢复。官方最后一则故障更新来自 11 日凌晨01:46，称接当地消防要求，因消防浇水持续进行，机房开始出现积水和渗漏，电路存在短路风险，新加坡可用区C…

新加坡一数据中心发生火灾

据当地媒体报道，3月14日凌晨，位于新加坡菜市路750C（750C Chai Chee Road）的数据中心发生火灾。

据云数据中心提供商SG.GS发给客户的邮件透露，火灾由一次「爆炸」引发，目前公司已派出工程师进行详细调查。初步检查显示，数据中心的服务器仍在运行，但全面恢复尚需时间。

10:12 · 2025年3月12日 · 周三

一个小站的自留地

OpenAI 发布 GPT-4.5（研究预览版） OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5（研究预览版），这是该公司迄今为止规模最大的语言模型。 GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型，其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比，GPT-4.5 主打「高情商」，能更自然地理解人类意图并提供更符合人类期望的回答。在性能方面，GPT-4.5 在简单问答的准确度达到 62.5%，幻觉率降至 37.1%，相比 GPT…

OpenAI 发布全新 Agent 工具套件

OpenAI 近日发布了一系列专为构建 AI 智能体（Agents）设计的新工具和 API。此次发布包含五个核心组件，所有功能已经在 API 平台上线。

- Responses API：结合了 Chat Completions API 的简洁性与 Assistants API 的工具使用能力，作为构建 Agent 应用的新基础。这一接口支持新的内置工具和可预测的流式事件，显著简化了项目复杂度。

- Web Search 工具：将 OpenAI 内部使用的联网搜索功能开放给 API，支持获取网络最新信息并自动提供引用。开发者可配置用户位置、搜索强度等参数。GPT-4o 和 GPT-4o-mini 搜索版本在 SimpleQA 测试中分别达到 90% 和 88% 的准确率。

- File Search 工具：支持上传多种格式文件（包括 txt、doc、pdf 等）到 OpenAI 向量库，实现文档检索并自带引用。还支持调整分块大小、过滤元数据和结果重排等高级功能。

- Computer Use Agent (CUA）：基于 GPT-4o 模型的多模态工具，允许 AI 通过截图理解界面并执行交互操作，实现自动化任务。支持 9 种基本操作行为，可自动组合执行。在 WebVoyager 基准测试中达到 87% 的成绩。

- Agents SDK：基于 Swarm 框架升级的开源 Agent 开发框架，支持 Agent Loop、智能体间交接、函数工具调用和可视化追踪。兼容任何符合 OpenAI Chat Completions API 的模型，包括第三方模型如 DeepSeek。

价格：
- Web 搜索：GPT-4o 搜索 30 美元/千次查询，GPT-4o-mini 搜索 25 美元/千次
- 文件搜索：2.5 美元/千次查询，文件存储 0.1 美元/GB/天（首 GB 免费）
- 计算机使用工具：输入 3 美元/百万 token，输出 12 美元/百万 token

（综合媒体报道）

13:39 · 2025年3月5日 · 周三

一个小站的自留地

Meta 发布 Llama 3.3 Meta 发布了新一代大语言模型 Llama 3.3 70B，该模型采用优化的 Transformer 架构，支持 128k 的上下文长度，并通过监督式微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 进行训练。官方宣称，Llama 3.3 70B 的性能与 Llama 3.1 405B 模型相当。 Llama 3.3 的主要特点包括： - 支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等 8 种语言 - 在多个基准测试中展现出色表现，如在…

Meta 将于2025年4月29日举办LlamaCon大会。

据悉，Llama 4 届时将会发布。

（AGI Hunt）

08:12 · 2025年3月3日 · 周一

一个小站的自留地

网易云音乐官方回复新京报贝壳财经记者称：「目前故障与机房无关，内容有失实」。 —————— 知情人士称，网易此次故障原因是云存储运维操作导致故障。本频信源确认了配图消息记录的真实性。该聊天确实来自网易员工。本频信源表示，本次故障与机房迁移无关。贵州机房切流早在六月份就已完成。部分媒体的报道有差错。网易云音乐在 B 站动态称，作为补偿，8月20日0-24时，网易云音乐搜「畅听音乐」，可领取7天会员权益。

2月28日下午，「网易云音乐又崩了」冲上微博热搜。

当晚，网易云音乐再次发文，表示故障因交换机故障引起。

作为补偿，网易云音乐将赠送7天黑胶VIP给受影响的用户，预计将在3月1日24点前直充到账户。

此前 2024 年 8 月 20 日，网易云音乐也曾因存储故障出现大规模宕机。

00:41 · 2025年3月1日 · 周六

一个小站的自留地

稍早之前，OpenAI的安卓客户端右上角为部分用户弹出一个提示：「尝试 GPT-4.5 研究预览版 - Pro 用户现在可以访问我们最新、最大的模型。」（DataLearner）

OpenAI 发布 GPT-4.5（研究预览版）

OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5（研究预览版），这是该公司迄今为止规模最大的语言模型。

GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型，其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比，GPT-4.5 主打「高情商」，能更自然地理解人类意图并提供更符合人类期望的回答。

在性能方面，GPT-4.5 在简单问答的准确度达到 62.5%，幻觉率降至 37.1%，相比 GPT-4o（61.8%）有明显改善。在专业查询、日常问题和创造性任务方面，GPT-4.5 对比 GPT-4o 的胜率分别为 63.2%、57.0% 和 56.8%。

由于 GPT-4.5 仅经过预训练和人类反馈强化学习（RLHF），并未进行深度推理训练，因此在数学、代码等依赖推理能力的领域表现并不突出。在某些测试中，其表现甚至不如 Claude 3.5 Sonnet 和 DeepSeek V3。

GPT-4.5 的 API 定价为输入每百万 tokens 75 美元，输出每百万 tokens 高达 150 美元，这一价格是 GPT-4o 的 15-30 倍，比 DeepSeek V3 贵出近 272 倍。有信源表示，GPT-4.5 的规模大约是 GPT-4 的 10 倍，因此推理和训练成本都居高不下。

因 GPU 资源不足，GPT-4.5 目前仅向每月 200 美元的 Pro 用户开放，预计下周将向每月 20 美元的 Plus 用户开放。Sam Altman 表示，公司计划下周增加上万块 GPU 以支持更广泛的用户访问。

（综合媒体报道）

21:35 · 2025年2月26日 · 周三

一个小站的自留地

OpenAI 公布 GPT-4.5 与 GPT-5 路线图 OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文，正式公开下一代大语言模型的发展路线。据透露，GPT-4.5（内部代号 Orion）将于未来数周至数月内发布，该模型将成为 OpenAI 最后一个非思维链（non-chain-of-thought）基础模型。 - GPT-5 将整合现有 o 系列与 GPT 系列模型，形成可调用全工具集的统一智能系统 - 免费用户可在标准智能模式下无限使用 GPT-5，Plus/Pro…

稍早之前，OpenAI的安卓客户端右上角为部分用户弹出一个提示：

「尝试 GPT-4.5 研究预览版 - Pro 用户现在可以访问我们最新、最大的模型。」

（DataLearner）

12:42 · 2025年2月25日 · 周二

一个小站的自留地

阿里巴巴集团CEO吴泳铭在 2 月 20 日的财报会上透露，阿里将于近期发布基于Qwen2.5-Max 的深度推理模型。 Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型，各项能力指标表现突出，超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。

阿里 Qwen 首个推理模型发布，擅长数学和编程，将推出独立应用

阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持，基于 Qwen2.5-Max 构建，在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中，QwQ-Max-Preview 预览版排名第 5，超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。

QwQ 具有类似 Claude Artifacts 的界面，支持深度思考和联网搜索功能，并可调用图片生成、二维码生成、天气服务等工具。Qwen 团队表示，将基于 Apache 2.0 开源协议开放 QwQ-Max 和 Qwen2.5-Max 的权重，并计划发布 Android 和 iOS 版专用应用。此外，团队还将推出更小的模型，如可部署在本地设备的 QwQ-32B。

12:41 · 2025年2月25日 · 周二

一个小站的自留地

Anthropic 正准备发布思考模型与网页搜索功能，Pro 会员即将可用。据@M1， Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。 —————— 多个媒体预计，Anthropic 计划在二月底或三月初发布新进展，最早的可能时间窗口是 2 月 24 日，但目前官方暂未透露任何信息。

Claude 3.7 Sonnet 发布，编程能力全面领先

Anthropic 于 2 月 25 日发布了 Claude 3.7 Sonnet，这是全球首个支持双模式推理的人工智能模型。该模型提供标准和扩展思考两种模式：标准模式保持快速响应，适合日常对话；扩展思考模式通过自我反思提升复杂任务表现，特别在数学、物理和编程领域效果显著。在各项基准测试中，Claude 3.7 Sonnet 在编码能力上全面超越 OpenAI 的 o1 和 DeepSeek R1，在软件工程基准 SWE-bench 上创下 70.3% 的纪录。

同步推出的 Claude Code 命令行工具支持测试驱动开发、复杂调试与代码重构，官方演示显示它可自动化处理 45 分钟以上人工编程任务。目前所有 Claude 套餐都已可使用新模型，但扩展思考模式仅向付费用户开放。定价保持不变：每百万输入词元 3 美元，输出词元 15 美元。

Claude 3.7 Sonnet 目前立即对所有用户可用，API 同步上线。

20:56 · 2025年2月20日 · 周四

一个小站的自留地

阿里云发布 Qwen2.5-Max 模型，称其性能超越 DeepSeek V3 和 GPT-4o 阿里云于 2025 年 1 月 29 日推出 Qwen2.5-Max 大语言模型，该模型基于混合专家架构（Mixture-of-Experts, MoE），参数规模超 200 亿，训练数据量达 20 万亿词元。据官方基准测试显示，Qwen2.5-Max 在 Arena-Hard（89.4）、LiveBench（62.2）等 5 项核心指标上均超越 DeepSeek V3 和 GPT-4o，其中数学推理能力（GSM8K…

阿里巴巴集团CEO吴泳铭在 2 月 20 日的财报会上透露，阿里将于近期发布基于Qwen2.5-Max 的深度推理模型。

Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型，各项能力指标表现突出，超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。

15:19 · 2025年2月20日 · 周四

一个小站的自留地

Apple 将在3月25日于上海举行开发者活动，主题为「利用Apple智能的力量」，外界因此猜测国行版Apple Intelligence 即将上线。此前媒体报道，Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道，国内合作方是阿里巴巴。（Apple Developer）

苹果发布 iPhone 16e：搭载自研 C1 芯片，起售价 4499 元

北京时间 2 月 20 日凌晨，苹果正式发布 iPhone 16e，起售价 4499 元。作为 iPhone 16 系列的新成员，iPhone 16e 搭载了苹果自研的 C1 调制解调器芯片，并支持 Apple Intelligence 功能。

iPhone 16e 采用 6.1 英寸 OLED 屏幕，配备 A18 芯片，但 GPU 核心数从 iPhone 16 的 5 核缩减至 4 核。后置摄像头为 4800 万像素单摄，不支持微距摄影、空间视频等功能。该机还配备了操作按钮，支持 USB-C 接口（USB 2.0）和 Qi 无线充电，但不支持 MagSafe 磁吸和 Qi2。

苹果表示，C1 芯片是「iPhone 迄今能效最高的调制解调器」，相比现有 5G 解决方案可提升 25% 的能效。得益于 C1 芯片，iPhone 16e 的续航时间达到 26 小时，超越 iPhone 16 的 22 小时。

iPhone 16e 将于 2 月 21 日晚 9 点开启预售，2 月 28 日正式发售。

（综合媒体报道）

——————

与此同时，苹果在发布会中预告，Apple Intelligence 将于四月支持中文，但未有明确是否会如期在中国大陆地区上线。

17:36 · 2025年2月19日 · 周三

一个小站的自留地

坊间传言称，Anthropic计划在近期发布Claude 4。该模型将在未来几周内推出，重点关注企业应用。 Claude 4采用混合架构设计，整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制（低-中-高），Anthropic引入了连续可调的推理强度刻度尺（0-100%）。该架构通过动态资源分配机制，可根据任务复杂度自动切换运算模式：在处理简单查询时保持标准LLM的响应效率，面对复杂问题时启用增强推理模式。此前媒体报道，Claude 3.5 Opus的研发遭遇技术瓶颈，作为…

Anthropic 正准备发布思考模型与网页搜索功能，Pro 会员即将可用。

据@M1， Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。

为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。

——————

多个媒体预计，Anthropic 计划在二月底或三月初发布新进展，最早的可能时间窗口是 2 月 24 日，但目前官方暂未透露任何信息。

11:26 · 2025年2月19日 · 周三

一个小站的自留地

马斯克在X上宣布，xAI 将于太平洋时间 2025 年 2 月 17 日（星期一）晚上 8 点举行 Grok-3 的发布会和现场演示。此前在迪拜世界政府峰会上，马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称，Grok-3 的表现超过了目前所有已发布的 AI 模型，这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。此前媒体报道，Grok-3 采用合成数据进行训练，使模型在训练过程中实现自主纠错与逻辑验证，使Grok-3能够主动识别数据矛盾，通过「思维链」(Chain…

马斯克旗下 xAI 发布 Grok 3 模型

xAI 正式发布新一代大语言模型 Grok 3，该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练，计算量是 Grok 2 的 10 倍，成为目前已知训练算力最大的模型之一。

Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本，均支持推理模式。其中，Grok 3 mini Reasoning 已完成训练，Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。

性能方面，Grok 3 在数学（AIME 2024）、科学（GPQA）和编程（LCB）等多项基准测试中表现出色，超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型；并以 1402 分登顶 LMSYS 榜单，成为首个突破 1400 分的模型。

功能方面，Grok 3 的推出同时包含以下新功能：
- Think 模式：展示完整推理链条
- Big Brain 模式：调用额外算力解决复杂问题
- DeepSearch：实现多源信息交叉验证

价格方面，X平台Premium+订阅费用从22美元大幅上调至40美元，新增的SuperGrok独立订阅服务定价30美元，提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。

语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露，延迟主要源于方言口音识别的准确度问题。

提前获得内测资格的知名AI研究员Karpathy指出，该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平，但在伦理敏感问题上仍显保守，拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型，并持续优化当前系统的逻辑一致性。

（综合量子位、机器之心、CNBC 报道）

11:09 · 2025年2月16日 · 周日

一个小站的自留地

xAI 正式发布 Grok-2 AI 模型 xAI 公司已正式发布 Grok-2 AI 模型,这是其 Grok 系列的最新版本。此次发布包括 Grok-2 和 Grok-2 mini 两个版本,均在 X 平台(原 Twitter)上以测试版形式推出。 Grok-2 相比前代模型有显著提升: - 增强了聊天、编码和推理能力 - 新增图像生成功能,可在 X 平台上创建图像 - 性能有望超越当前主流 AI 模型目前,Grok-2 仅向 X 平台的 Premium 和 Premium+ 订阅用户开放。xAI…

马斯克在X上宣布，xAI 将于太平洋时间 2025 年 2 月 17 日（星期一）晚上 8 点举行 Grok-3 的发布会和现场演示。

此前在迪拜世界政府峰会上，马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称，Grok-3 的表现超过了目前所有已发布的 AI 模型，这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。

此前媒体报道，Grok-3 采用合成数据进行训练，使模型在训练过程中实现自主纠错与逻辑验证，使Grok-3能够主动识别数据矛盾，通过「思维链」(Chain-of-Thought)推理逐步修正错误。在内部测试中，该模型展现出处理复杂跨学科问题的卓越能力。

10:25 · 2025年2月14日 · 周五

一个小站的自留地

Apple 将在3月25日于上海举行开发者活动，主题为「利用Apple智能的力量」，外界因此猜测国行版Apple Intelligence 即将上线。此前媒体报道，Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道，国内合作方是阿里巴巴。（Apple Developer）

百度今日官宣，将在未来几个月中陆续推出文心大模型 4.5 系列，并于 6 月 30 日起正式开源。

早前文心一言在官网宣布将于 4 月 1 日 0 时起全面免费，所有 PC 端和 APP 端用户均可体验文心系列最新模型，同时上线深度搜索功能。

此前 The Information 报道，即使苹果国行 AI 确定和阿里合作，但和百度的合作仍然会继续。

百度正在为苹果开发基于 AI 的搜索功能，除了能处理图像和文字，也将提升中文版 Siri 的体验，成为国行版 Apple Intelligence 的一部分。

09:02 · 2025年2月13日 · 周四

一个小站的自留地

OpenAI 推出深度研究智能体 Deep Research 北京时间 2 月 3 日，OpenAI 宣布面向深度研究领域推出智能体产品「Deep Research」，该产品能够通过推理综合大量在线信息完成多步骤研究任务。目前该功能已面向 Pro 用户开放，月均查询上限为 100 次，将逐步向 Plus、Team 和企业用户推广。免费用户也将获得「相当小」的额度。 Deep Research 基于 o3 模型构建，针对网页浏览和 Python 数据分析进行优化，具备三项核心能力： - 支持解析互联网文本、图像和…

OpenAI 公布 GPT-4.5 与 GPT-5 路线图

OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文，正式公开下一代大语言模型的发展路线。据透露，GPT-4.5（内部代号 Orion）将于未来数周至数月内发布，该模型将成为 OpenAI 最后一个非思维链（non-chain-of-thought）基础模型。

- GPT-5 将整合现有 o 系列与 GPT 系列模型，形成可调用全工具集的统一智能系统
- 免费用户可在标准智能模式下无限使用 GPT-5，Plus/Pro 用户将获更高智能等级
- o3 模型不再独立发布，其技术将融入 GPT-5
- 未来用户无需手动选择模型，新系统将根据用户提示自动调用最佳模型组合，具备动态调整思考深度等能力。

Pro 用户即日起可在全平台使用深度研究功能，Plus 用户每日与 o3-mini-high 的对话次数提升至 50 次（增加 7 倍）。

同步发布的最新《模型规范白皮书》则披露，OpenAI 将采用 CC0 协议开放模型行为准则框架；建立三级优先级指令链（OpenAI 预设 > 开发者规则 > 用户指令）；强化事实核查机制（去年 5 月至今，模型规范遵循度提升 41%）以及新增「知识自由保障条款与进度评估体系」等。

另外，OpenAI 还宣布o3-mini 及 o1 现已支持图片和文件上传。

（The Verge）

11:31 · 2025年2月11日 · 周二

一个小站的自留地

Claude 网页版现在支持自定义回复语气，除预设回复语气外，还可根据用户描述生成自定义回复语气预设。

坊间传言称，Anthropic计划在近期发布Claude 4。该模型将在未来几周内推出，重点关注企业应用。

Claude 4采用混合架构设计，整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制（低-中-高），Anthropic引入了连续可调的推理强度刻度尺（0-100%）。该架构通过动态资源分配机制，可根据任务复杂度自动切换运算模式：在处理简单查询时保持标准LLM的响应效率，面对复杂问题时启用增强推理模式。

此前媒体报道，Claude 3.5 Opus的研发遭遇技术瓶颈，作为替代方案，Anthropic采用知识蒸馏技术，将未发布的Opus模型能力迁移至更小规模的架构。

18:39 · 2025年2月10日 · 周一

一个小站的自留地

Apple 2024 秋季发布会：iPhone 16 系列、Apple Watch Series 10、AirPods 4 重磅亮相 2024 年 9 月 10 日凌晨，Apple 如期举行了备受期待的秋季发布会，主题为「It's Glowtime」。本次发布会上，Apple 推出了 iPhone 16 系列、Apple Watch Series 10、AirPods 4 等多款新品。虽然硬件更新并未带来太多惊喜，但围绕 AI 的发展方向和应用引发了广泛讨论。 iPhone 16 系列：全新相机控制键与…

Apple 将在3月25日于上海举行开发者活动，主题为「利用Apple智能的力量」，外界因此猜测国行版Apple Intelligence 即将上线。

此前媒体报道，Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道，国内合作方是阿里巴巴。

（Apple Developer）

12:09 · 2025年2月7日 · 周五

一个小站的自留地

GitHub Copilot Chat 支持 GPT-4o 64K 上下文窗口 GitHub 宣布，Copilot Chat 在其官方网站、移动应用、命令行工具及支持的集成开发环境中，已支持 OpenAI GPT-4o 的 64K 词元上下文窗口。此次升级将为用户处理大型文件和代码仓库时提供更好的响应体验。 GitHub 表示，所有 Copilot 用户无需任何操作即可使用此功能。新版本将帮助 Copilot 在执行技能时检索更多信息，从而提供更贴合上下文的回应。值得一提的是，Visual Studio…

GitHub Copilot 发布代理模式预览版

GitHub 宣布为 Copilot 引入多项重大更新，包括代理模式（Agent Mode）预览版、Copilot Edits 正式版，以及首度公开研发代号为 Project Padawan 的自主代理功能。

代理模式现已在 VS Code Insiders 版本开放预览。该功能支持多文件上下文感知，可自主迭代代码、识别运行时错误并自动修复，还能通过终端命令建议实现环境配置。开发者只需通过自然语言描述需求（例如「构建马拉松训练追踪 Web 应用」），Copilot 即可自动推断并执行必要子任务，直至完成主要目标。用户需在 Copilot Edits 面板切换至代理模式开启此功能。

Copilot Edits 多文件编辑功能结束预览，正式登陆 VS Code。该功能采用双模型架构：基础模型（可选 OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet 或 Google Gemini 2.0 Flash）负责生成初始编辑建议，推测解码端点则负责快速应用修改。用户可通过语音交互实时审查跨文件改动，并与测试视图联动验证单元测试结果。Visual Studio 2022 版本已同步开启预览。

Project Padawan 作为未来重点功能首次亮相。该自主代理可将 GitHub 问题直接转化为完整测试的 PR，自动分配人工审核并在云端沙盒执行代码克隆、环境配置、构建测试等全流程。官方承诺将提供扩展接口，支持合作伙伴接入该 AI 原生工作流。

本次更新同步推出三项预览功能：支持保存复用提示模板提升响应一致性；通过自定义指令个性化聊天响应；集成自动化代码审查能力。开发者可通过 VS Code Insiders 版本提前体验部分新特性。

（GitHub 官方博客）

12:01 · 2025年2月7日 · 周五

Cloudflare R2 及其关联产品发生全球性服务中断

2025 年 2 月 6 日 16 时 14 分（北京时间），Cloudflare 对象存储服务 R2 突发全球性中断，引发包括 Stream 视频传输、Images 图片管理、Vectorize AI 索引等 9 项核心服务的连锁故障，持续 59 分钟。事故期间，R2 接口完全瘫痪，用户遭遇 100% 的 HTTP 500 错误响应，连带导致 Dify.AI 等第三方平台文件系统停摆，Docker Hub 镜像拉取异常。

事故根源系人工操作失误——安全团队处理钓鱼网站举报时，误将生产环境 R2 网关服务禁用。该操作触发 API 前端服务崩溃，但底层存储架构保持完整，未造成数据丢失。恢复过程中，运维团队因管理工具依赖 R2 服务而受阻，最终通过底层系统操作完成服务重启。

Cloudflare 事后承诺将改进内部账户标记机制，实施双人审批制度，并建立产品禁用操作防护网。

（Cloudflare Blog）

16:25 · 2025年2月5日 · 周三

一个小站的自留地

Google 在 Google AI Studio 中上线了 Gemini 2.0 Flash Thinking，这是一个增强了推理能力的模型，可以像 OpenAI 的 o1 模型一样展现思考过程。有网友体验表示，该模型的智力和 OpenAI 的 o1 仍有较大差距，但得益于这是一个 Flash 模型，推理速度较 o1 有显著优势。

谷歌发布 Gemini 2.0 系列模型，支持 200 万 tokens 上下文窗口

2025 年 2 月 6 日，谷歌正式发布 Gemini 2.0 系列大语言模型，包含 Gemini 2.0 Pro（实验版）、Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 三个版本。该系列模型在编码、复杂指令处理和长文本理解能力上均有显著提升，最高支持 200 万 tokens 上下文窗口。

各模型亮点一览：

- Gemini 2.0 Pro：支持 200 万 tokens 上下文窗口，在 MMLU Pro 评测中以 86.5 分超越 DeepSeek-R1（85.3 分），开发者每日可免费调用 50 次
- Gemini 2.0 Flash：正式版上线，100 万 tokens 上下文窗口，支持多模态输入，未来将开放图像生成功能
- Gemini 2.0 Flash-Lite：输入成本低至每百万 tokens 0.35 美元，处理 4 万张图片描述任务总成本不足 1 美元

目前，正式版模型已在 Google AI Studio 和 Vertex AI 开放 API 调用；Gemini Advanced 用户可通过应用端直接访问 Pro 实验版。而图像生成与文本转语音功能计划在未来数月上线。

（综合媒体报道）

Before

After

Home

个人博客

讨论组