在 Google Cloud Next '25 活动上,Google 发布了其 Gemini AI 模型家族的新成员 Gemini 2.5 Flash。该模型被定位为「主力(workhorse)」模型,特别针对低延迟和成本效益进行了优化,旨在满足高容量、实时应用场景的需求。
Gemini 2.5 Flash 的一个关键特性是其动态可控的计算能力,模型能根据提示的复杂性调整其「思考预算」或推理深度,从而在速度、准确性和成本之间取得平衡。
该模型将很快通过 Google Cloud 的 Vertex AI 平台提供。
(Google Cloud Blog)
OpenRouter 于 2025 年 4 月 4 日上线一个匿名模型 Quasar Alpha。这是一个来自某个模型实验室的基础模型 (foundation model) 的预发布版本,目前已在 OpenRouter 平台上免费提供给所有用户试用。
Quasar Alpha 拥有 100 万词元 (Token) 的上下文长度,专为编码进行了优化,同时也具备通用能力 。用户报告称,尽管该模型并非主要设计为推理模型,但其在数学推理和竞技编程方面表现出色,并支持图像识别功能。根据 Aider 多语言编码基准测试,其得分率为 55%,与 DeepSeek V3 和 Claude 3.5 Sonnet 相当。
所有提交给 Quasar Alpha 的提示 (prompt) 和生成内容都将被 OpenRouter 及模型提供方记录,用于理解模型使用情况并进行改进。
关于 Quasar Alpha 的开发者身份,尽管官方保持沉默,但大量技术证据指向了 OpenAI。分析发现,该模型的 API 响应中包含 OpenAI 特有的「chatcmpl-」前缀,工具调用 ID 格式也与 OpenAI 完全一致,而与其他主要 AI 开发商 (如 Google、Mistral) 不同。此外,Quasar Alpha 分词器 (tokenizer) 中一个独特的中文响应错误,与 OpenAI 分词器系统已知的问题高度相似 。AI 研究员 Sam Paech 使用生物信息学聚类工具进行的分析也显示,Quasar Alpha 在模型家族树中与 GPT-4.5 Preview 最为接近。
(OpenRouter, Reddit)
2025 年 4 月 7 日上午,一张声称「微软停止中国区运营」的邮件截图在网络流传 。该邮件称,由于地缘政治及国际业务环境变化,微软将调整全球战略布局,并于 2025 年 4 月 8 日起正式停止在中国区的运营 。
经钛媒体向微软内部人士求证,该邮件实为微软在中国的众多外包服务商之一——上海微创软件股份有限公司(Wicresoft)发给其内部微软项目团队的通知 。邮件中提及的「停止在中国区的运营」实际上是指上海微创的微软项目团队将终止相关工作,而非微软中国(Microsoft China)停止运营 。上海微创软件股份有限公司是一家全球数字化转型服务商,于 2002 年由微软与上海市政府共同创办 。
此次上海微创微软项目团队的终止,与美国拜登政府于 2024 年 2 月 28 日签署并要求美国司法部制定具体规则的第 14117 号行政令 (Executive Order 14117, Preventing Access to Americans' Bulk Sensitive Personal Data and United States Government-Related Data by Countries of Concern) 有关 。该行政令及其最终规则旨在阻止包括中国(含香港和澳门特别行政区)、俄罗斯、伊朗、朝鲜、古巴和委内瑞拉在内的「受关注国家 (Countries of Concern)」以及相关「受涵盖人员 (Covered Persons)」访问美国人的「批量敏感个人数据 (Bulk U.S. Sensitive Personal Data)」和「美国政府相关数据 (United States Government-related Data)」。
根据 EO 14117 的最终规则,自 2025 年 4 月 8 日起,位于受关注国家(包括中国大陆)的个人(包括美国公司的员工以及外包团队成员)将被限制访问特定类型的美国敏感个人数据和政府相关数据,特别是托管在北美的数据中心的数据 。这项限制将在 2025 年 10 月 6 日进一步扩展至全球范围 ,即身在中国大陆的人员将不能访问其他地区的部分数据(内部业务、工具类等不包含个人、用户信息的数据除外)。
(综合媒体报道)
Meta 于 2025 年 4 月 5 日发布并开源了其最新的 Llama 4 系列人工智能模型,标志着 Llama 系列首次采用混合专家 (Mixture of Experts, MoE) 架构并原生支持多模态能力 。此次发布了 Llama 4 Scout 和 Llama 4 Maverick 两款模型,同时预告了更大规模的 Llama 4 Behemoth 模型 。
Llama 4 Scout 是一款拥有 16 个专家、170 亿激活参数 (总参数约 1090 亿) 的 MoE 模型 。其 Int4 量化版本可在单张 NVIDIA H100 GPU 上运行 。该模型最大的亮点之一是支持业界领先的 1000 万 词元 (token) 上下文窗口。
Llama 4 Maverick 同样拥有 170 亿激活参数,但配备了 128 个专家,总参数量达到 4000 亿。
这两款模型均通过知识蒸馏自 Llama 4 Behemoth,后者是一个拥有 16 个专家、2880 亿激活参数、总参数量近 2 万亿的教师模型,目前仍在训练中。
Llama 4 系列采用了多项新技术,包括 MoE 架构、通过早期融合实现的原生多模态、改进的基于 MetaCLIP 的视觉编码器、名为 MetaP 的超参数设置技术、FP8 精度训练、通过中期训练扩展上下文长度以及名为 iRoPE 的长上下文架构 。后训练流程也经过改进,采用轻量级监督微调 (SFT) > 在线强化学习 (RL) > 轻量级直接偏好优化 (DPO) 的策略 。模型在超过 30 万亿 词元 (token) 的多样化文本、图像和视频数据集上进行了预训练,涵盖 200 种语言 。
Llama 4 Scout 和 Llama 4 Maverick 模型目前已在 llama.com 和 Hugging Face 开放下载 。
(Meta AI Blog)
——————
Llama 4 发布后,互联网普遍表示失望。有自称 Llama 团队内部人士透露,Llama 项目倾尽了团队的所有资源,但仍然未能达到 SOTA,因此团队选择将其所有语料投入后训练中,目前看来仍然收效甚微。该网友表示,Llama 4 将成为自己「简历上的污点」。
与此同时,网友体验大多负面,认为 Llama 的体积与其性能严重错配,甚至不如体积小得多的 Qwen 模型。
说明说,4月2日15时50分,腾讯会议由于存储系统的网络变更导致网络访问规则配置异常,进而影响存储系统的访问,发生腾讯会议运行故障,造成腾讯会议登录、预定会议、加入会议等功能受限,期间也收到客户侧的咨询投诉。 经采取对网络访问规则进行恢复并优化的应急处置措施,业务已全部恢复。
说明还指,腾讯云会在其后发布事故的详细复盘。本频会随后将复盘结果更新在本条消息中。