微软 Office 团队完成从 Source Depot 到 Git 的大规模迁移
微软 Office 工程团队完成了一项历时数年的重大技术迁移,将版本控制系统从内部专有的 Source Depot 全面转向开源的 Git。这一迁移项目涉及超 4000 名工程师。
Source Depot 是微软基于 Perforce 技术在 2000 年代初开发的定制版本控制系统,专门用于管理 Windows 和 Office 等大型代码库。当时 Git 尚未诞生,Subversion 也不够成熟,Source Depot 承担了管理数百万行代码的重任。然而,随着时间推移,这一集中式系统的局限性逐渐暴露:获取 Office 代码库需要数小时,分支操作异常复杂,合并变更的流程更是令开发者苦不堪言。
迁移面临的最大技术挑战是 Office 代码库的庞大规模 —— 超过 270 GB 的大小和数百万个文件,远超标准 Git 的处理能力。为解决这一问题,微软开发了 Virtual File System for Git (VFS for Git) 技术,通过虚拟化文件系统实现按需下载文件,将克隆时间从 12 小时缩短至几分钟,检出操作从 2 至 3 小时缩短至 30 秒,状态检查从 10 分钟缩短至 4 至 5 秒。
为此,微软采用了「平行宇宙」迁移策略,创建与 Source Depot 持续同步的 Git 代码库,确保迁移过程的平稳进行。团队还为开发者提供了沙箱环境进行培训,并设置了「红色按钮」回滚机制以应对可能出现的问题。
(danielsada.tech)
微软 Office 工程团队完成了一项历时数年的重大技术迁移,将版本控制系统从内部专有的 Source Depot 全面转向开源的 Git。这一迁移项目涉及超 4000 名工程师。
Source Depot 是微软基于 Perforce 技术在 2000 年代初开发的定制版本控制系统,专门用于管理 Windows 和 Office 等大型代码库。当时 Git 尚未诞生,Subversion 也不够成熟,Source Depot 承担了管理数百万行代码的重任。然而,随着时间推移,这一集中式系统的局限性逐渐暴露:获取 Office 代码库需要数小时,分支操作异常复杂,合并变更的流程更是令开发者苦不堪言。
迁移面临的最大技术挑战是 Office 代码库的庞大规模 —— 超过 270 GB 的大小和数百万个文件,远超标准 Git 的处理能力。为解决这一问题,微软开发了 Virtual File System for Git (VFS for Git) 技术,通过虚拟化文件系统实现按需下载文件,将克隆时间从 12 小时缩短至几分钟,检出操作从 2 至 3 小时缩短至 30 秒,状态检查从 10 分钟缩短至 4 至 5 秒。
为此,微软采用了「平行宇宙」迁移策略,创建与 Source Depot 持续同步的 Git 代码库,确保迁移过程的平稳进行。团队还为开发者提供了沙箱环境进行培训,并设置了「红色按钮」回滚机制以应对可能出现的问题。
(danielsada.tech)
2025 年 6 月 13 日凌晨 1 时 51 分(北京时间),Google 云平台 (Google Cloud Platform, GCP) 发生全球性重大故障,导致包括 Spotify、Discord、YouTube、Gmail、Cloudflare 在内的众多互联网服务出现大面积中断。
故障根因指向 Google 内部身份和访问管理 (Identity and Access Management, IAM) 服务异常。据了解,Google 云内部代号为「Chemist」的核心服务出现问题,该服务负责所有 API 请求的项目状态和策略检查。当这一关键组件失效时,几乎所有云服务的权限验证都被阻断,导致「一票否决」式的连锁故障。
Anthropic 的 Claude、Cursor AI 编程助手、Weights & Biases 机器学习平台均出现服务中断。OpenAI 也因「外部供应商问题」影响了单点登录功能。
Cloudflare 作为承载全球 20% 互联网流量的基础设施提供商,因部分服务依赖 GCP 而被波及,进一步放大了故障影响范围。截至6 月 13 日上午 8 时 33 分,大部分服务开始恢复,但 Google Cloud Dataflow 和 Vertex AI 仍有残留问题。
12 日晚,哔哩哔哩(下称 B 站)主站和周边服务出现服务不稳定现象,部分用户出现视频无法加载、评论区空白、信息流报错等问题。
本频测试发现,并非所有用户都受到故障影响,考虑到故障面广,很有可能为基础设施的单点故障。
B 站暂未发布声明。
B 站上一次出现 大规模故障 是在 2024 年 7 月,彼时阿里云上海数据中心因光纤被挖断导致机房整体断网,引发 B 站大规模服务异常导致服务降级。
开源网盘程序 Alist 项目出现异动。项目中文文档被篡改,替换为了贵州某公司的收款码、群聊,Docker Hub 镜像被从原作者的 xhofe/alist 修改为 alist666/alist。新主的 Github 账号并无活动记录,身份存疑。
目前 Alist 原开发者已暂时无法联系上,官方群组据信已经移交管理权限给新团队。
根据 Alist 文档页面挂出的收款码,贵州某公司还拥有 Java 工具类库 hutool[.]cn。
2023 年,Linux 环境部署工具 LNMP 和 OneinStack 被曝代码投毒。在此之前,这些项目也经历了从开源到被出售给国内公司的过程。鉴于购买这些开源项目的同类公司曾被曝存在 供应链攻击历史 ,本频提醒读者不要使用中文文档中提供的镜像地址,并注意新版本中可能存在的后门。
本频建议读者固定使用当前由 xhofe 上传的 Alist 版本,并不再更新该程序。(3.40.0 版本及更早)
外界猜测,此举是为即将推出的 o3-pro 模型设计的营销手段。
截至发稿,故障已经持续 5 小时。OpenAI 官方仍未宣布事故解决或提供更多信息。
——————
当地时间 6 月 10 日至 11 日,OpenAI 经历了一次持续超过 24 小时的服务中断事件,官方将其定性为「部分宕机 (Partial outage)」。此次事件导致其 API 接口和 ChatGPT 服务在全球范围内出现高错误率和高延迟,影响了大量用户和依赖其服务的第三方应用。
事件于 6 月 10 日上午开始,OpenAI 迅速响应并展开调查。在确定根本原因后,团队实施了修复措施,API 服务于当天下午开始恢复。ChatGPT 的恢复过程则持续了更长时间,其中语音模式是最后一个被完全修复的功能。直到 6 月 11 日下午,OpenAI 才正式宣布所有服务恢复正常。
OpenAI 承诺将在 5 个工作日内公布此次事件的详细根本原因分析报告,以向外界说明故障的具体技术细节。