目前消息称 Grok 4 系列会有 grok-4-0629 和 grok-4-code-0629 两个型号。具有和前代模型相同的 131k 上下文窗口,支持推理,但只能输入文本模态内容。
百度正式宣布开源其最新的旗舰级大模型系列 ERNIE 4.5,这是一个包含 10 个不同变体的大规模多模态模型家族。该系列包含 2 个多模态大模型和 4 个大语言模型,共计 23 个模型版本,其中最大模型拥有 4240 亿参数,47B 活跃参数。
ERNIE 4.5 采用了创新的异构多模态混合专家(MoE)架构,支持跨模态参数共享的同时,也为每个模态保留专用参数。这种设计在提升多模态理解能力的同时,实现了文本处理性能的同步增强。模型支持图像、视频和文本等多种输入模态,并生成文本输出。
在技术创新方面,ERNIE 4.5 在三个关键领域实现了突破:多模态异构 MoE 预训练、高效扩展的基础设施,以及针对特定模态的后训练。该模型在预训练阶段达到了 47% 的模型 FLOPs 利用率(MFU),在 2016 块 NVIDIA H800 GPU 上实现了高效训练。
性能评测显示,ERNIE 4.5 在指令遵循、世界知识记忆、视觉理解和多模态推理等方面表现出色。在传统基准测试如 MMLU、MMLU Pro 等任务上,该模型与当前最强的 DeepSeek-V3、Qwen 等模型不相上下。然而在更具挑战性的新评测任务如 AIME、LiveCodeBench 等方面,表现相对一般。
本次开源遵循 Apache 2.0 协议,意味着开发者可以自由进行商业化使用和二次开发。百度还同时开源了完整的开发工具链,包括 ERNIEKit 训练工具包和 FastDeploy 推理部署工具包,涵盖从训练、微调到部署的全栈能力。模型提供了 PyTorch 和 PaddlePaddle 两个版本,以满足不同开发者的需求。
(技术报告)
据 The Information 报道,DeepSeek 备受期待的下一代大语言模型 R2 可能无法像其前任 R1 那样在中国迅速广泛普及。据中国主要云服务提供商员工透露,国内英伟达服务器芯片短缺是主要原因,而美国最近禁止专为中国市场设计的英伟达 H20 芯片销售进一步加剧了这一问题。
DeepSeek 的模型完全针对英伟达的硬件和软件进行了优化,在英伟达芯片上运行时表现最佳。R1 发布后,包括字节跳动、阿里巴巴和腾讯在内的中国科技巨头在 2025 年第一季度为英伟达 H20 芯片下了 160 亿美元订单,相当于 120 万块芯片。相比之下,2024 年英伟达向中国发运了 100 万颗 H20 芯片。
据知情人士透露,由对冲基金公司幻方量化拥有的 DeepSeek 尚未确定 R2 的发布时间。CEO 梁文锋对新模型的性能并不满意,工程师正在持续优化直到获得批准发布。
英伟达在声明中表示:「中国拥有全球最大的开发者群体之一,他们创建了开源基础模型和非军事应用。虽然安全至关重要,但这些应用都应以美国的人工智能堆栈为最佳运行平台。」
云服务提供商员工表示,如果 R2 发布后能超越现有开源模型,其需求将令正在应对英伟达芯片短缺的中国云提供商应接不暇。目前使用 R1 的云客户大部分都使用英伟达 H20 芯片运行该模型。
(The Information)
Cloudflare 于 6 月 24 日宣布,Cloudflare Containers 现已面向所有付费计划用户提供公开测试版服务。
Cloudflare Containers 与现有的 Workers 平台实现了紧密集成,开发者只需定义几行代码即可创建容器,就像部署 Worker 一样简单。容器无需管理跨多个区域的配置。当请求新的容器实例时,Cloudflare 会从其全球网络中选择已预置就绪容器的最佳位置,初始容器启动仅需几秒钟时间。
该平台的突出特点是其可编程性。容器实例可以按需启动,并由 Workers 代码控制。开发者可以根据需求灵活选择工具:轻量级可扩展任务使用 Worker,需要更多算力和灵活性的任务使用容器。这为开发者提供了运行以前无法在 Workers 中运行的库的能力,例如使用 FFmpeg 将视频转换为 GIF 的应用程序。
在定价方面,Containers 采用按使用量付费的透明模式。目前提供三种实例类型:dev(256 MiB 内存)、basic(1 GiB 内存)和 standard(4 GiB 内存)。费用从向容器发送请求时开始计算,在容器实例进入休眠状态后停止计费。容器按每 10 毫秒的活跃运行时间计费,内存费率为每 GiB- 秒 0.0000025 美元,CPU 费率为每 vCPU- 秒 0.000020 美元。
Cloudflare 已经规划了多项未来增强功能,包括提高并发实例限制、支持基于利用率的全球自动扩展、增强 Containers 和 Workers 之间的通信方式,以及与开发者平台其他服务的更深度集成等。
(Cloudflare 官方博客)
太平洋夏令时间 2025 年 6 月 12 日 10 时 49 分(北京时间 6 月 13 日凌晨 1 时 49 分),Google Cloud Platform(GCP)发生全球性重大故障,导致包括 Gmail、Google Drive、YouTube 在内的数十项 Google 服务以及依赖 GCP 的第三方服务出现大面积中断。故障持续约 3 小时,其中美国中部地区 us-central1 的恢复时间长达 2 小时 40 分钟。
根据 Google 发布的详细事故报告,故障源于 Service Control 系统 —— 负责 Google 所有 API 请求授权和配额管理的核心组件。5 月 29 日,Google 向 Service Control 部署了一项新的配额策略检查功能,但该代码变更存在致命缺陷:缺乏适当的错误处理机制,且未受功能标志位(Feature Flag)保护。
6 月 12 日,当一项包含空白字段的策略变更被推送到全球数据库时,触发了有问题的代码路径。空指针异常导致 Service Control 二进制文件进入崩溃循环,由于配额管理的全球性质,故障在数秒内蔓延至所有地区。
Google 工程团队在 2 分钟内开始响应,10 分钟内识别根本原因,25 分钟内部署缓解措施。然而,在 us-central1 等大型地区,Service Control 任务重启时产生的「雷群效应」(Thundering Herd)过载了底层基础设施,延长了恢复时间。
此次故障影响了超过 80 项 Google Cloud 服务,包括身份和访问管理(IAM)、Cloud Storage、BigQuery、Vertex AI 等,以及 Gmail、Google Calendar、Google Drive 等 Workspace 产品。Spotify、Discord、Cloudflare、Anthropic Claude、OpenAI 等依赖 GCP 的第三方服务也受到波及。
Google 承诺采取一系列补救措施,包括模块化 Service Control 架构以实现故障开放(Fail-Open)、审查所有消费全球复制数据的系统、强制关键二进制文件变更必须受功能标志保护,以及改进错误处理和测试实践。公司还计划确保监控和通信基础设施在 Google Cloud 主要服务宕机时仍能正常运行。
(Google Cloud)
GitHub 官方宣布,Copilot 的高级请求(Premium Requests)将于 2025 年 6 月 18 日起正式计费,适用于所有订阅计划。在此之前,用户可免费使用 Copilot 的高级模型,无需为额外的高级请求支付费用。计费开始后,用户的高级请求计数器将重置为零,并可在后台实时追踪用量。部分请求可能会因高需求而受到速率限制。
高级请求主要用于 Copilot Chat、Copilot coding agent、Copilot 代码审查、Copilot Extensions 等高级功能。不同 AI 模型对应不同的高级请求倍率(Multiplier),如 GPT-4.5 单次请求计为 50 个高级请求,Claude Opus 4 为 10,Gemini 2.0 Flash 为 0.25,o3-mini 和 o4-mini 为 0.33。付费用户使用 GPT-4.1 或 GPT-4o 基础模型时不计入高级请求额度,免费用户则每次计 1 个。
微软 Office 团队完成从 Source Depot 到 Git 的大规模迁移
微软 Office 工程团队完成了一项历时数年的重大技术迁移,将版本控制系统从内部专有的 Source Depot 全面转向开源的 Git。这一迁移项目涉及超 4000 名工程师。
Source Depot 是微软基于 Perforce 技术在 2000 年代初开发的定制版本控制系统,专门用于管理 Windows 和 Office 等大型代码库。当时 Git 尚未诞生,Subversion 也不够成熟,Source Depot 承担了管理数百万行代码的重任。然而,随着时间推移,这一集中式系统的局限性逐渐暴露:获取 Office 代码库需要数小时,分支操作异常复杂,合并变更的流程更是令开发者苦不堪言。
迁移面临的最大技术挑战是 Office 代码库的庞大规模 —— 超过 270 GB 的大小和数百万个文件,远超标准 Git 的处理能力。为解决这一问题,微软开发了 Virtual File System for Git (VFS for Git) 技术,通过虚拟化文件系统实现按需下载文件,将克隆时间从 12 小时缩短至几分钟,检出操作从 2 至 3 小时缩短至 30 秒,状态检查从 10 分钟缩短至 4 至 5 秒。
为此,微软采用了「平行宇宙」迁移策略,创建与 Source Depot 持续同步的 Git 代码库,确保迁移过程的平稳进行。团队还为开发者提供了沙箱环境进行培训,并设置了「红色按钮」回滚机制以应对可能出现的问题。
(danielsada.tech)
微软 Office 工程团队完成了一项历时数年的重大技术迁移,将版本控制系统从内部专有的 Source Depot 全面转向开源的 Git。这一迁移项目涉及超 4000 名工程师。
Source Depot 是微软基于 Perforce 技术在 2000 年代初开发的定制版本控制系统,专门用于管理 Windows 和 Office 等大型代码库。当时 Git 尚未诞生,Subversion 也不够成熟,Source Depot 承担了管理数百万行代码的重任。然而,随着时间推移,这一集中式系统的局限性逐渐暴露:获取 Office 代码库需要数小时,分支操作异常复杂,合并变更的流程更是令开发者苦不堪言。
迁移面临的最大技术挑战是 Office 代码库的庞大规模 —— 超过 270 GB 的大小和数百万个文件,远超标准 Git 的处理能力。为解决这一问题,微软开发了 Virtual File System for Git (VFS for Git) 技术,通过虚拟化文件系统实现按需下载文件,将克隆时间从 12 小时缩短至几分钟,检出操作从 2 至 3 小时缩短至 30 秒,状态检查从 10 分钟缩短至 4 至 5 秒。
为此,微软采用了「平行宇宙」迁移策略,创建与 Source Depot 持续同步的 Git 代码库,确保迁移过程的平稳进行。团队还为开发者提供了沙箱环境进行培训,并设置了「红色按钮」回滚机制以应对可能出现的问题。
(danielsada.tech)
2025 年 6 月 13 日凌晨 1 时 51 分(北京时间),Google 云平台 (Google Cloud Platform, GCP) 发生全球性重大故障,导致包括 Spotify、Discord、YouTube、Gmail、Cloudflare 在内的众多互联网服务出现大面积中断。
故障根因指向 Google 内部身份和访问管理 (Identity and Access Management, IAM) 服务异常。据了解,Google 云内部代号为「Chemist」的核心服务出现问题,该服务负责所有 API 请求的项目状态和策略检查。当这一关键组件失效时,几乎所有云服务的权限验证都被阻断,导致「一票否决」式的连锁故障。
Anthropic 的 Claude、Cursor AI 编程助手、Weights & Biases 机器学习平台均出现服务中断。OpenAI 也因「外部供应商问题」影响了单点登录功能。
Cloudflare 作为承载全球 20% 互联网流量的基础设施提供商,因部分服务依赖 GCP 而被波及,进一步放大了故障影响范围。截至6 月 13 日上午 8 时 33 分,大部分服务开始恢复,但 Google Cloud Dataflow 和 Vertex AI 仍有残留问题。
12 日晚,哔哩哔哩(下称 B 站)主站和周边服务出现服务不稳定现象,部分用户出现视频无法加载、评论区空白、信息流报错等问题。
本频测试发现,并非所有用户都受到故障影响,考虑到故障面广,很有可能为基础设施的单点故障。
B 站暂未发布声明。
B 站上一次出现 大规模故障 是在 2024 年 7 月,彼时阿里云上海数据中心因光纤被挖断导致机房整体断网,引发 B 站大规模服务异常导致服务降级。
开源网盘程序 Alist 项目出现异动。项目中文文档被篡改,替换为了贵州某公司的收款码、群聊,Docker Hub 镜像被从原作者的 xhofe/alist 修改为 alist666/alist。新主的 Github 账号并无活动记录,身份存疑。
目前 Alist 原开发者已暂时无法联系上,官方群组据信已经移交管理权限给新团队。
根据 Alist 文档页面挂出的收款码,贵州某公司还拥有 Java 工具类库 hutool[.]cn。
2023 年,Linux 环境部署工具 LNMP 和 OneinStack 被曝代码投毒。在此之前,这些项目也经历了从开源到被出售给国内公司的过程。鉴于购买这些开源项目的同类公司曾被曝存在 供应链攻击历史 ,本频提醒读者不要使用中文文档中提供的镜像地址,并注意新版本中可能存在的后门。
本频建议读者固定使用当前由 xhofe 上传的 Alist 版本,并不再更新该程序。(3.40.0 版本及更早)
外界猜测,此举是为即将推出的 o3-pro 模型设计的营销手段。
截至发稿,故障已经持续 5 小时。OpenAI 官方仍未宣布事故解决或提供更多信息。
——————
当地时间 6 月 10 日至 11 日,OpenAI 经历了一次持续超过 24 小时的服务中断事件,官方将其定性为「部分宕机 (Partial outage)」。此次事件导致其 API 接口和 ChatGPT 服务在全球范围内出现高错误率和高延迟,影响了大量用户和依赖其服务的第三方应用。
事件于 6 月 10 日上午开始,OpenAI 迅速响应并展开调查。在确定根本原因后,团队实施了修复措施,API 服务于当天下午开始恢复。ChatGPT 的恢复过程则持续了更长时间,其中语音模式是最后一个被完全修复的功能。直到 6 月 11 日下午,OpenAI 才正式宣布所有服务恢复正常。
OpenAI 承诺将在 5 个工作日内公布此次事件的详细根本原因分析报告,以向外界说明故障的具体技术细节。
北京时间 6 月 10 日凌晨,苹果 WWDC25 全球开发者大会正式开幕。本次大会的最大亮点是推出名为「液态玻璃」(Liquid Glass) 的全新设计语言。
苹果将这套源自 visionOS 的设计体系应用到所有平台,采用半透明玻璃质感、实时反射折射效果和景深层次,覆盖应用图标、锁屏界面、控制中心等系统各处。新设计主打通透感和动态响应,旨在让界面元素更加融入主题环境。
在命名上,苹果首次统一所有操作系统版本号,从传统递增编号改为年份标识,如iOS 19 变更为 iOS 26。
功能方面,iOS 26 新增独立的游戏应用,集成 Apple Arcade 和 Game Center 功能;电话应用增加来电筛选、呼叫保持助理等 AI 驱动功能;相机界面简化,首屏仅保留拍照和录影两个核心模式。iMessage 补强了聊天背景、群投票、群收发等此前缺失的功能。
iPadOS 26 在生产力方面实现突破,支持类似 macOS 的自由窗口调整、三色窗口按钮、App Exposé 和菜单栏等功能,进一步缩小与桌面系统的操作差距。
macOS Tahoe 26 推出新的 Metal 4 引擎和游戏叠层功能。watchOS 26 引入基于 Apple Intelligence 的「运动搭子」(Workout Buddy),能在锻炼过程中提供个性化指导和鼓励。
Apple Intelligence 功能虽有更新,但苹果表示 Siri 的升级仍需时间完善。同时,这些 AI 功能何时在国行设备上线仍未明确。
新系统的开发者预览版已于今日推出,公测版将于 7 月发布,正式版预计今年秋季随新硬件一同推出。
2025 年 5 月 19 日,安全研究员 Bob Dyachenko 与 Cybernews 团队发现一个容量达 631 GB 的 MongoDB 数据库因未设置密码保护而完全暴露在公网上,导致超过 40 亿条中国用户记录泄露,成为迄今已知最大规模的中国个人数据泄露事件。
该数据库包含 16 个数据集,涵盖从社交通信到金融支付的全方位个人信息。其中最大的「wechatid_db」集合包含 8.05 亿条微信 ID 数据,「address_db」存储 7.8 亿条带地理标识的住址信息,「bank」集合则含有 6.3 亿条银行卡号、姓名、生日等金融数据。名为「三要素校验」的数据集收录 6.1 亿条身份证、手机号、用户名信息,「wechatinfo」集合的 5.77 亿条记录疑似包含微信元数据、通讯日志甚至聊天内容。
支付宝相关数据同样大量泄露,「zfbkt_db」集合包含 3 亿条支付宝卡片及 Token 信息。其余数据集还涵盖赌博、车辆登记、就业、养老保险等多领域信息,甚至包括标注为「tw_db」的台湾相关数据。
研究团队指出,如此海量且多样的数据类型表明这极可能是一个集中式聚合枢纽,用于为几乎任何中国公民建立详尽的行为、经济与社会画像。数据规模之大意味着威胁行为者可将其用于钓鱼诈骗、敲诈勒索、金融欺诈,甚至国家级情报收集与信息操控。
数据库在被发现后于 5 月 20 日迅速下线,但研究团队无法确认数据库所有者身份。
MongoDB 至今仍采用无密码的默认设置,导致大量监听公网的数据库处于「裸奔」状态,为此类大规模泄露事件埋下隐患。
本频提醒,读者务必注意 MongoDB 默认配置的安全隐患。非必要不暴露在公网,且必须做好鉴权设置。
(Cybernews)
2025 年 6 月 6 日凌晨,阿里云核心域名 aliyuncs.com 发生解析异常,导致多项云服务在全球范围内无法访问。
北京时间 6 月 6 日凌晨 2 时 57 分,阿里云监控发现 aliyuncs.com 域名解析出现异常。受影响的服务包括对象存储 OSS、内容分发网络 CDN、容器镜像服务 ACR、云解析 DNS 等多项核心云产品。
凌晨 4 时 4 分,阿里云工程师初步确认导致域名解析异常的原因并开始紧急处理。阿里云同时向客户发送通知邮件,建议将本地 DNS 服务器指向 223.5.5.5 和 223.6.6.6 以降低业务影响,并提供了负载均衡等服务的临时解决方案。
上午 8 时 11 分,阿里云宣布解析异常问题已完成修复,受影响云产品开始逐步恢复。上午 9 时左右,所有受影响的云产品已全部恢复正常运行。
——————
根据技术社区分析,此次异常的直接原因是 aliyuncs.com 域名的 NS 记录被修改,指向了 Shadowserver 基金会的 DNS 服务器。Shadowserver 是国际知名的非营利网络安全组织,通常协助执法机构接管恶意域名进行流量监测。
由于 NS 记录控制着域名的权威解析服务器,这一变更导致所有对 aliyuncs.com 及其子域名的 DNS 查询都被导向错误的服务器,进而造成解析失败。
阿里云在故障通告中确认了域名解析异常,但未公布具体原因。事件修复后,阿里云为该域名增加了包括禁止转移、禁止更新、禁止删除在内的锁定措施。
受 DNS 缓存机制影响,即使在官方宣布修复后,部分地区的完全恢复仍需要额外时间等待缓存刷新。目前未发现客户数据泄露的证据。
截至发稿,阿里云尚未发布详细的事故调查报告。
(综合媒体报道)
OpenAI 的 ChatGPT 早在同类功能上线之初就采用类似方案。
早前,Anthropic 还将 AI 编程助手 Claude Code 下放给 Cluade Pro 用户而无需按量付费,但 Pro 用户使用的是轻量化的版本,也面临更严格的速率限制。
6 月 6 日,通义千问(Qwen)团队正式发布 Qwen3-Embedding 系列模型。该系列模型基于 Qwen3 基础模型训练,支持超过 100 种自然语言及多种编程语言。
该系列模型架构灵活,提供 0.6B、2B、8B 三种参数规模。
训练方面,Embedding 模型采用三阶段训练范式:首先利用超大规模弱监督数据进行对比学习预训练,随后基于高质量标注数据进行监督训练,最后通过模型融合提升整体性能。
Reranker 模型则直接基于高质量标注数据进行监督训练。值得一提的是,Embedding 模型在弱监督阶段通过多任务适配的 Prompt 体系,动态生成大规模弱监督文本对,突破了传统数据获取方式的局限。
Qwen3-Embedding 系列已在 Hugging Face、ModelScope 和 GitHub 平台开源。
(通义千问)