起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/+a5Clq4jLuJc4YWQ9
一个小站的自留地
OpenAI 发布 GPT-4.5(研究预览版) OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5(研究预览版),这是该公司迄今为止规模最大的语言模型。 GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型,其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比,GPT-4.5 主打「高情商」,能更自然地理解人类意图并提供更符合人类期望的回答。 在性能方面,GPT-4.5 在简单问答的准确度达到 62.5%,幻觉率降至 37.1%,相比 GPT…
OpenAI 发布三款音频模型

OpenAI 刚刚宣布在其 API 中推出全新一代音频模型,包括两款语音转文本模型和一款文本转语音模型,旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构,为语音交互带来了显著提升。

语音转文本模型
- gpt-4o-transcribe:每分钟 0.006 美元,单词错误率(WER)显著降低至 2.46%,在多种语言的基准测试中优于现有 Whisper 模型,特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe:每分钟 0.003 美元(是前者的一半),基于 GPT-4o-mini 架构的精简版本,通过知识蒸馏技术从大模型转移能力,虽然 WER 稍高于完整版模型,但仍优于原有 Whisper 模型,速度更快、效率更高。

文本转语音模型
- gpt-4o-mini-tts:每分钟 0.015 美元,首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」,包括预设多种语音风格或通过指令调整语音风格。

所有三个模型均通过 OpenAI 的 API 提供,用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频,该演示网站提供多种预设模板,包括人设、语气、方言、发音等设置。

(综合媒体报道)
一个小站的自留地
OpenAI 发布 GPT-4.5(研究预览版) OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5(研究预览版),这是该公司迄今为止规模最大的语言模型。 GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型,其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比,GPT-4.5 主打「高情商」,能更自然地理解人类意图并提供更符合人类期望的回答。 在性能方面,GPT-4.5 在简单问答的准确度达到 62.5%,幻觉率降至 37.1%,相比 GPT…
OpenAI 发布全新 Agent 工具套件

OpenAI 近日发布了一系列专为构建 AI 智能体(Agents)设计的新工具和 API。此次发布包含五个核心组件,所有功能已经在 API 平台上线。

- Responses API:结合了 Chat Completions API 的简洁性与 Assistants API 的工具使用能力,作为构建 Agent 应用的新基础。这一接口支持新的内置工具和可预测的流式事件,显著简化了项目复杂度。

- Web Search 工具:将 OpenAI 内部使用的联网搜索功能开放给 API,支持获取网络最新信息并自动提供引用。开发者可配置用户位置、搜索强度等参数。GPT-4o 和 GPT-4o-mini 搜索版本在 SimpleQA 测试中分别达到 90% 和 88% 的准确率。

- File Search 工具:支持上传多种格式文件(包括 txt、doc、pdf 等)到 OpenAI 向量库,实现文档检索并自带引用。还支持调整分块大小、过滤元数据和结果重排等高级功能。

- Computer Use Agent (CUA):基于 GPT-4o 模型的多模态工具,允许 AI 通过截图理解界面并执行交互操作,实现自动化任务。支持 9 种基本操作行为,可自动组合执行。在 WebVoyager 基准测试中达到 87% 的成绩。

- Agents SDK:基于 Swarm 框架升级的开源 Agent 开发框架,支持 Agent Loop、智能体间交接、函数工具调用和可视化追踪。兼容任何符合 OpenAI Chat Completions API 的模型,包括第三方模型如 DeepSeek。

价格:
- Web 搜索:GPT-4o 搜索 30 美元/千次查询,GPT-4o-mini 搜索 25 美元/千次
- 文件搜索:2.5 美元/千次查询,文件存储 0.1 美元/GB/天(首 GB 免费)
- 计算机使用工具:输入 3 美元/百万 token,输出 12 美元/百万 token

(综合媒体报道)
一个小站的自留地
稍早之前,OpenAI的安卓客户端右上角为部分用户弹出一个提示: 「尝试 GPT-4.5 研究预览版 - Pro 用户现在可以访问我们最新、最大的模型。」 (DataLearner)
OpenAI 发布 GPT-4.5(研究预览版)

OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5(研究预览版),这是该公司迄今为止规模最大的语言模型。

GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型,其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比,GPT-4.5 主打「高情商」,能更自然地理解人类意图并提供更符合人类期望的回答。

在性能方面,GPT-4.5 在简单问答的准确度达到 62.5%,幻觉率降至 37.1%,相比 GPT-4o(61.8%)有明显改善。在专业查询、日常问题和创造性任务方面,GPT-4.5 对比 GPT-4o 的胜率分别为 63.2%、57.0% 和 56.8%。

由于 GPT-4.5 仅经过预训练和人类反馈强化学习(RLHF),并未进行深度推理训练,因此在数学、代码等依赖推理能力的领域表现并不突出。在某些测试中,其表现甚至不如 Claude 3.5 Sonnet 和 DeepSeek V3。

GPT-4.5 的 API 定价为输入每百万 tokens 75 美元,输出每百万 tokens 高达 150 美元,这一价格是 GPT-4o 的 15-30 倍,比 DeepSeek V3 贵出近 272 倍。有信源表示,GPT-4.5 的规模大约是 GPT-4 的 10 倍,因此推理和训练成本都居高不下。

因 GPU 资源不足,GPT-4.5 目前仅向每月 200 美元的 Pro 用户开放,预计下周将向每月 20 美元的 Plus 用户开放。Sam Altman 表示,公司计划下周增加上万块 GPU 以支持更广泛的用户访问。

(综合媒体报道)
一个小站的自留地
阿里巴巴集团CEO吴泳铭在 2 月 20 日的财报会上透露,阿里将于近期发布基于Qwen2.5-Max 的深度推理模型。 Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型,各项能力指标表现突出,超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。
阿里 Qwen 首个推理模型发布,擅长数学和编程,将推出独立应用

阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持,基于 Qwen2.5-Max 构建,在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中,QwQ-Max-Preview 预览版排名第 5,超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。

QwQ 具有类似 Claude Artifacts 的界面,支持深度思考和联网搜索功能,并可调用图片生成、二维码生成、天气服务等工具。Qwen 团队表示,将基于 Apache 2.0 开源协议开放 QwQ-Max 和 Qwen2.5-Max 的权重,并计划发布 Android 和 iOS 版专用应用。此外,团队还将推出更小的模型,如可部署在本地设备的 QwQ-32B。
一个小站的自留地
Anthropic 正准备发布思考模型与网页搜索功能,Pro 会员即将可用。 据@M1, Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。 为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。 —————— 多个媒体预计,Anthropic 计划在二月底或三月初发布新进展,最早的可能时间窗口是 2 月 24 日,但目前官方暂未透露任何信息。
Claude 3.7 Sonnet 发布,编程能力全面领先

Anthropic 于 2 月 25 日发布了 Claude 3.7 Sonnet,这是全球首个支持双模式推理的人工智能模型。该模型提供标准和扩展思考两种模式:标准模式保持快速响应,适合日常对话;扩展思考模式通过自我反思提升复杂任务表现,特别在数学、物理和编程领域效果显著。在各项基准测试中,Claude 3.7 Sonnet 在编码能力上全面超越 OpenAI 的 o1 和 DeepSeek R1,在软件工程基准 SWE-bench 上创下 70.3% 的纪录。

同步推出的 Claude Code 命令行工具支持测试驱动开发、复杂调试与代码重构,官方演示显示它可自动化处理 45 分钟以上人工编程任务。目前所有 Claude 套餐都已可使用新模型,但扩展思考模式仅向付费用户开放。定价保持不变:每百万输入词元 3 美元,输出词元 15 美元。

Claude 3.7 Sonnet 目前立即对所有用户可用,API 同步上线。
一个小站的自留地
Apple 将在3月25日于上海举行开发者活动,主题为「利用Apple智能的力量」,外界因此猜测国行版Apple Intelligence 即将上线。 此前媒体报道,Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道,国内合作方是阿里巴巴。 (Apple Developer)
苹果发布 iPhone 16e:搭载自研 C1 芯片,起售价 4499 元

北京时间 2 月 20 日凌晨,苹果正式发布 iPhone 16e,起售价 4499 元。作为 iPhone 16 系列的新成员,iPhone 16e 搭载了苹果自研的 C1 调制解调器芯片,并支持 Apple Intelligence 功能。

iPhone 16e 采用 6.1 英寸 OLED 屏幕,配备 A18 芯片,但 GPU 核心数从 iPhone 16 的 5 核缩减至 4 核。后置摄像头为 4800 万像素单摄,不支持微距摄影、空间视频等功能。该机还配备了操作按钮,支持 USB-C 接口(USB 2.0)和 Qi 无线充电,但不支持 MagSafe 磁吸和 Qi2。

苹果表示,C1 芯片是「iPhone 迄今能效最高的调制解调器」,相比现有 5G 解决方案可提升 25% 的能效。得益于 C1 芯片,iPhone 16e 的续航时间达到 26 小时,超越 iPhone 16 的 22 小时。

iPhone 16e 将于 2 月 21 日晚 9 点开启预售,2 月 28 日正式发售。

(综合媒体报道)

——————

与此同时,苹果在发布会中预告,Apple Intelligence 将于四月支持中文,但未有明确是否会如期在中国大陆地区上线。
一个小站的自留地
坊间传言称,Anthropic计划在近期发布Claude 4。该模型将在未来几周内推出,重点关注企业应用。 Claude 4采用混合架构设计,整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制(低-中-高),Anthropic引入了连续可调的推理强度刻度尺(0-100%)。该架构通过动态资源分配机制,可根据任务复杂度自动切换运算模式:在处理简单查询时保持标准LLM的响应效率,面对复杂问题时启用增强推理模式。 此前媒体报道,Claude 3.5 Opus的研发遭遇技术瓶颈,作为…
Anthropic 正准备发布思考模型与网页搜索功能,Pro 会员即将可用。

据@M1, Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。

为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。

——————

多个媒体预计,Anthropic 计划在二月底或三月初发布新进展,最早的可能时间窗口是 2 月 24 日,但目前官方暂未透露任何信息。
一个小站的自留地
马斯克在X上宣布,xAI 将于太平洋时间 2025 年 2 月 17 日(星期一)晚上 8 点举行 Grok-3 的发布会和现场演示。 此前在迪拜世界政府峰会上,马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称,Grok-3 的表现超过了目前所有已发布的 AI 模型,这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。 此前媒体报道,Grok-3 采用合成数据进行训练,使模型在训练过程中实现自主纠错与逻辑验证,使Grok-3能够主动识别数据矛盾,通过「思维链」(Chain…
马斯克旗下 xAI 发布 Grok 3 模型

xAI 正式发布新一代大语言模型 Grok 3,该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练,计算量是 Grok 2 的 10 倍,成为目前已知训练算力最大的模型之一。

Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本,均支持推理模式。其中,Grok 3 mini Reasoning 已完成训练,Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。

性能方面,Grok 3 在数学(AIME 2024)、科学(GPQA)和编程(LCB)等多项基准测试中表现出色,超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型;并以 1402 分登顶 LMSYS 榜单,成为首个突破 1400 分的模型

功能方面,Grok 3 的推出同时包含以下新功能:
- Think 模式:展示完整推理链条
- Big Brain 模式:调用额外算力解决复杂问题
- DeepSearch:实现多源信息交叉验证

价格方面,X平台Premium+订阅费用从22美元大幅上调至40美元,新增的SuperGrok独立订阅服务定价30美元,提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。

语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露,延迟主要源于方言口音识别的准确度问题。

提前获得内测资格的知名AI研究员Karpathy指出,该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平,但在伦理敏感问题上仍显保守,拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型,并持续优化当前系统的逻辑一致性。

(综合量子位、机器之心、CNBC 报道)
一个小站的自留地
xAI 正式发布 Grok-2 AI 模型 xAI 公司已正式发布 Grok-2 AI 模型,这是其 Grok 系列的最新版本。此次发布包括 Grok-2 和 Grok-2 mini 两个版本,均在 X 平台(原 Twitter)上以测试版形式推出。 Grok-2 相比前代模型有显著提升: - 增强了聊天、编码和推理能力 - 新增图像生成功能,可在 X 平台上创建图像 - 性能有望超越当前主流 AI 模型 目前,Grok-2 仅向 X 平台的 Premium 和 Premium+ 订阅用户开放。xAI…
马斯克在X上宣布,xAI 将于太平洋时间 2025 年 2 月 17 日(星期一)晚上 8 点举行 Grok-3 的发布会和现场演示。

此前在迪拜世界政府峰会上,马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称,Grok-3 的表现超过了目前所有已发布的 AI 模型,这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。

此前媒体报道,Grok-3 采用合成数据进行训练,使模型在训练过程中实现自主纠错与逻辑验证,使Grok-3能够主动识别数据矛盾,通过「思维链」(Chain-of-Thought)推理逐步修正错误。在内部测试中,该模型展现出处理复杂跨学科问题的卓越能力。
一个小站的自留地
Apple 将在3月25日于上海举行开发者活动,主题为「利用Apple智能的力量」,外界因此猜测国行版Apple Intelligence 即将上线。 此前媒体报道,Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道,国内合作方是阿里巴巴。 (Apple Developer)
百度今日官宣,将在未来几个月中陆续推出文心大模型 4.5 系列,并于 6 月 30 日起正式开源。

早前文心一言在官网宣布将于 4 月 1 日 0 时起全面免费,所有 PC 端和 APP 端用户均可体验文心系列最新模型,同时上线深度搜索功能。

此前 The Information 报道,即使苹果国行 AI 确定和阿里合作,但和百度的合作仍然会继续。

百度正在为苹果开发基于 AI 的搜索功能,除了能处理图像和文字,也将提升中文版 Siri 的体验,成为国行版 Apple Intelligence 的一部分。
一个小站的自留地
OpenAI 推出深度研究智能体 Deep Research 北京时间 2 月 3 日,OpenAI 宣布面向深度研究领域推出智能体产品「Deep Research」,该产品能够通过推理综合大量在线信息完成多步骤研究任务。目前该功能已面向 Pro 用户开放,月均查询上限为 100 次,将逐步向 Plus、Team 和企业用户推广。免费用户也将获得「相当小」的额度。 Deep Research 基于 o3 模型构建,针对网页浏览和 Python 数据分析进行优化,具备三项核心能力: - 支持解析互联网文本、图像和…
OpenAI 公布 GPT-4.5 与 GPT-5 路线图

OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文,正式公开下一代大语言模型的发展路线。据透露,GPT-4.5(内部代号 Orion)将于未来数周至数月内发布,该模型将成为 OpenAI 最后一个非思维链(non-chain-of-thought)基础模型

- GPT-5 将整合现有 o 系列与 GPT 系列模型,形成可调用全工具集的统一智能系统
- 免费用户可在标准智能模式下无限使用 GPT-5,Plus/Pro 用户将获更高智能等级
- o3 模型不再独立发布,其技术将融入 GPT-5
- 未来用户无需手动选择模型,新系统将根据用户提示自动调用最佳模型组合,具备动态调整思考深度等能力。

Pro 用户即日起可在全平台使用深度研究功能,Plus 用户每日与 o3-mini-high 的对话次数提升至 50 次(增加 7 倍)。

同步发布的最新《模型规范白皮书》则披露,OpenAI 将采用 CC0 协议开放模型行为准则框架;建立三级优先级指令链(OpenAI 预设 > 开发者规则 > 用户指令);强化事实核查机制(去年 5 月至今,模型规范遵循度提升 41%)以及新增「知识自由保障条款与进度评估体系」等。

另外,OpenAI 还宣布o3-mini 及 o1 现已支持图片和文件上传。

The Verge
一个小站的自留地
Claude 网页版现在支持自定义回复语气,除预设回复语气外,还可根据用户描述生成自定义回复语气预设。
坊间传言称,Anthropic计划在近期发布Claude 4。该模型将在未来几周内推出,重点关注企业应用。

Claude 4采用混合架构设计,整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制(低-中-高),Anthropic引入了连续可调的推理强度刻度尺(0-100%)。该架构通过动态资源分配机制,可根据任务复杂度自动切换运算模式:在处理简单查询时保持标准LLM的响应效率,面对复杂问题时启用增强推理模式。

此前媒体报道,Claude 3.5 Opus的研发遭遇技术瓶颈,作为替代方案,Anthropic采用知识蒸馏技术,将未发布的Opus模型能力迁移至更小规模的架构。
一个小站的自留地
GitHub Copilot Chat 支持 GPT-4o 64K 上下文窗口 GitHub 宣布,Copilot Chat 在其官方网站、移动应用、命令行工具及支持的集成开发环境中,已支持 OpenAI GPT-4o 的 64K 词元上下文窗口。此次升级将为用户处理大型文件和代码仓库时提供更好的响应体验。 GitHub 表示,所有 Copilot 用户无需任何操作即可使用此功能。新版本将帮助 Copilot 在执行技能时检索更多信息,从而提供更贴合上下文的回应。 值得一提的是,Visual Studio…
GitHub Copilot 发布代理模式预览版

GitHub 宣布为 Copilot 引入多项重大更新,包括代理模式(Agent Mode)预览版、Copilot Edits 正式版,以及首度公开研发代号为 Project Padawan 的自主代理功能。

代理模式现已在 VS Code Insiders 版本开放预览。该功能支持多文件上下文感知,可自主迭代代码、识别运行时错误并自动修复,还能通过终端命令建议实现环境配置。开发者只需通过自然语言描述需求(例如「构建马拉松训练追踪 Web 应用」),Copilot 即可自动推断并执行必要子任务,直至完成主要目标。用户需在 Copilot Edits 面板切换至代理模式开启此功能。

Copilot Edits 多文件编辑功能结束预览,正式登陆 VS Code。该功能采用双模型架构:基础模型(可选 OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet 或 Google Gemini 2.0 Flash)负责生成初始编辑建议,推测解码端点则负责快速应用修改。用户可通过语音交互实时审查跨文件改动,并与测试视图联动验证单元测试结果。Visual Studio 2022 版本已同步开启预览。

Project Padawan 作为未来重点功能首次亮相。该自主代理可将 GitHub 问题直接转化为完整测试的 PR,自动分配人工审核并在云端沙盒执行代码克隆、环境配置、构建测试等全流程。官方承诺将提供扩展接口,支持合作伙伴接入该 AI 原生工作流。

本次更新同步推出三项预览功能:支持保存复用提示模板提升响应一致性;通过自定义指令个性化聊天响应;集成自动化代码审查能力。开发者可通过 VS Code Insiders 版本提前体验部分新特性。

GitHub 官方博客
Cloudflare R2 及其关联产品发生全球性服务中断

2025 年 2 月 6 日 16 时 14 分(北京时间),Cloudflare 对象存储服务 R2 突发全球性中断,引发包括 Stream 视频传输、Images 图片管理、Vectorize AI 索引等 9 项核心服务的连锁故障,持续 59 分钟。事故期间,R2 接口完全瘫痪,用户遭遇 100% 的 HTTP 500 错误响应,连带导致 Dify.AI 等第三方平台文件系统停摆,Docker Hub 镜像拉取异常。

事故根源系人工操作失误——安全团队处理钓鱼网站举报时,误将生产环境 R2 网关服务禁用。该操作触发 API 前端服务崩溃,但底层存储架构保持完整,未造成数据丢失。恢复过程中,运维团队因管理工具依赖 R2 服务而受阻,最终通过底层系统操作完成服务重启。

Cloudflare 事后承诺将改进内部账户标记机制,实施双人审批制度,并建立产品禁用操作防护网。

Cloudflare Blog
Back to Top