一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/+a5Clq4jLuJc4YWQ9

09:47 · Aug 19, 2024 · Mon

一个小站的自留地

网易旗下部分服务出现大范围故障 8 月 19 日下午,网易云音乐出现大范围服务器故障。网页版出现 HTTP 502 网关错误，客户端播放歌曲时提示「获取播放信息失败」，几乎所有平台均无法正常访问和使用。网易云音乐官方于当日 15:22 在微博发布声明称:「因基础设施故障,导致网易云音乐各端无法正常使用,我们正在加紧修复,非常抱歉。感谢大家的等待。」本频综合信源表示，此次故障发生时间为 19 日下午14:35 前后，截至发稿，故障已经持续超一小时。目前故障原因和具体恢复时间尚不明确。 (蓝点网，图：V2EX)…

网易云音乐官方回复新京报贝壳财经记者称：「目前故障与机房无关，内容有失实」。

——————

知情人士称，网易此次故障原因是云存储运维操作导致故障。本频信源确认了配图消息记录的真实性。该聊天确实来自网易员工。

本频信源表示，本次故障与机房迁移无关。贵州机房切流早在六月份就已完成。部分媒体的报道有差错。

网易云音乐在 B 站动态称，作为补偿，8月20日0-24时，网易云音乐搜「畅听音乐」，可领取7天会员权益。

07:52 · Aug 19, 2024 · Mon

一个小站的自留地

GitHub 全球宕机 36 分钟，Copilot 等服务全部瘫痪北京时间 8 月 16 日 07:02 至 07:38，GitHub 遭遇全球性宕机，所有服务对全体用户不可用，包括代码托管、Pages、Actions、Packages 以及 AI 代码助手 Copilot。 GitHub 表示，此次宕机源于一项影响数据库基础设施内部流量路由的配置变更，导致关键服务意外失去数据库连接。GitHub 通过回滚该变更并确认恢复数据库连接来缓解事件影响。北京时间 07:38，流量恢复，所有服务重新正常运作。…

网易旗下部分服务出现大范围故障

8 月 19 日下午,网易云音乐出现大范围服务器故障。网页版出现 HTTP 502 网关错误，客户端播放歌曲时提示「获取播放信息失败」，几乎所有平台均无法正常访问和使用。

网易云音乐官方于当日 15:22 在微博发布声明称:「因基础设施故障,导致网易云音乐各端无法正常使用,我们正在加紧修复,非常抱歉。感谢大家的等待。」

本频综合信源表示，此次故障发生时间为 19 日下午14:35 前后，截至发稿，故障已经持续超一小时。目前故障原因和具体恢复时间尚不明确。

(蓝点网，图：V2EX)

——————

除网易云音乐外，网易方面同时崩溃的还有：

- 网易官网 netease.com （解析到杭州网易 IP）
- 网易集团官网 corp.163.com （502，融合 CDN）
- 网易体育 sports.163.com （502，融合 CDN）
- 网易严选 you.163.com （客户端正常，网页版 SSL 错误）
- 网易汽车 auto.163.com
- 网易公开课 open.163.com
- 网易科技 tech.163.com

网易门户网站 www.163.com （解析到杭州网易 IP）此前同样受到故障影响，当前访问会跳转至 m.163.com （融合 CDN）且可正常访问。

网易游戏、网易邮箱、网易新闻等服务均正常运行。

——————

网易方面，正常运行的服务，如m.163.com，由国内其他厂商提供 CDN 服务。而此次故障的服务，如网易云音乐，所有 IP 均解析到贵州，似乎并未使用第三方 CDN。

——————

19 日 17:00 起，本频观察到上述服务正陆续恢复中。

网易云音乐于 17:04:28 起间歇性恢复，但仍存在不稳定情况。

01:28 · Aug 16, 2024 · Fri

一个小站的自留地

ChatGPT 出现大规模长时间的全球宕机 OpenAI 的 ChatGPT 目前正在经历全球范围的部分宕机，多个平台的用户报告了问题，包括网页版、移动应用和桌面应用。截至发稿，本次故障已经持续约 4 小时。据 DownDetector 报告，问题始于北京时间 6 月 4 日下午约 14:30。受影响的用户遇到了「500 内部服务器错误」的提示。在宕机报告平台DownDetector 上，世界各地均有故障报告。根据 OpenAI 的状态页面，ChatGPT 正在经历重大宕机，OpenAI 于 6…

ChatGPT 遭遇 6 小时全球性重大故障

2024 年 8 月 15 日,OpenAI 旗下广受欢迎的 AI 聊天机器人 ChatGPT 经历了一次严重的全球性故障,影响了数百万用户。

故障始于美国东部时间上午 9:30 左右,直到下午 4:15 才恢复正常,持续约 6 小时 45 分钟。根据中断跟踪网站 Downdetector 的数据,用户报告的问题数量在美东时间中午 12 时左右达到峰值。

大多数用户在这段时间内无法访问 ChatGPT 平台,一些用户还遇到了 OpenAI 网站或 ChatGPT 应用程序的问题。社交媒体上充斥着用户反馈连接问题的帖子,反映出此次故障的广泛影响。

OpenAI 在官方声明中确认了此次中断,表示「部分用户无法使用 ChatGPT」。公司随后发布更新,称已发现问题并正在积极处理,但并未透露具体的故障原因。

（Downdetector、OpenAI）

05:27 · Aug 15, 2024 · Thu

一个小站的自留地

DeepSeek 启用上下文硬盘缓存技术，大模型的价格再降低一个数量级 8 月 2 日起， DeepSeek API 将默认启用上下文硬盘缓存技术，把预计未来会重复使用的内容，缓存在分布式的硬盘阵列中。如果输入存在重复，则重复的部分只需要从缓存读取，无需计算。该技术不仅降低服务的延迟，还大幅削减最终的使用成本。缓存命中的部分，DeepSeek 费用为 0.1元 /百万 tokens。至此，大模型的价格再降低一个数量级。硬盘缓存服务已经全面上线，用户无需修改代码，无需更换接口，硬盘缓存服务将自动运…

Anthropic 推出 Claude 提示缓存功能,可大幅降低成本

人工智能公司 Anthropic 于 8 月 14 日宣布,在其 API 上推出名为「提示缓存」(Prompt Caching)的新功能。该功能允许开发者在 API 调用之间缓存频繁使用的上下文信息,从而为 Claude 模型提供更丰富的背景知识和输出示例,同时显著降低成本和延迟。

提示缓存功能目前已在 Claude 3.5 Sonnet 和 Claude 3 Haiku 模型的公测版中提供。对于长提示,该功能可以将成本降低高达 90%,延迟降低高达 85%。Anthropic 表示,支持 Claude 3 Opus 模型的缓存功能即将推出。

该功能适用于多种场景,包括:

- 对话代理:减少长时间对话中的成本和延迟
- 代码辅助:通过保留代码库摘要来改进自动补全和问答功能
- 大型文档处理:在不增加响应延迟的情况下处理长篇内容
- 详细指令集:提供更多指令和示例来优化 Claude 的响应

Anthropic 为缓存的提示采用了新的定价模式。写入缓存的成本比基本输入令牌价格高 25%,而使用缓存内容的成本仅为基本价格的 10%。缓存的有效期为 5 分钟,每次使用都会重置计时。

DeepSeek 和 Gemini 都在早前宣布支持了上下文缓存，其中DeepSeek 的上下文缓存时间为约 24 小时。

(Anthropic)

05:20 · Aug 15, 2024 · Thu

一个小站的自留地

CrowdStrike 发布 Channel File 291 事件根因分析报告网络安全公司 CrowdStrike 近日发布了 Channel File 291 事件的详细技术根因分析报告。该事件发生于 2024 年 7 月 19 日，导致全球约 850 万台 Windows 系统崩溃，影响了交通、金融、医疗、零售等多个行业。报告指出，事件源于多个技术因素的叠加。2024 年 2 月发布的 Falcon 传感器 7.11 版本引入了新的 IPC（进程间通信）模板类型，用于检测滥用命名管道的新型攻击技术。然而，该模板类型定义了…

GitHub 全球宕机 36 分钟，Copilot 等服务全部瘫痪

北京时间 8 月 16 日 07:02 至 07:38，GitHub 遭遇全球性宕机，所有服务对全体用户不可用，包括代码托管、Pages、Actions、Packages 以及 AI 代码助手 Copilot。

GitHub 表示，此次宕机源于一项影响数据库基础设施内部流量路由的配置变更，导致关键服务意外失去数据库连接。GitHub 通过回滚该变更并确认恢复数据库连接来缓解事件影响。北京时间 07:38，流量恢复，所有服务重新正常运作。

软件行业对 GitHub 高度依赖。许多项目的软件分发、静态网站托管、持续集成等关键功能都依赖 GitHub 提供的服务。

GitHub 强调此次事件未造成数据丢失或损坏，并承诺在未来几天内提供更详细的调查报告。

00:37 · Aug 15, 2024 · Thu

一个小站的自留地

Apple Intelligence 首轮测试启动,暂不支持中国大陆及欧盟设备 Apple 于 7 月 30 日向开发者推送了 iOS 18.1、iPadOS 18.1 和 macOS Sequoia 15.1 的首个测试版，正式启动 Apple Intelligence 功能的首轮测试。这些测试版仅面向支持 Apple Intelligence 的设备推送，包括非中国大陆和欧盟销售的 iPhone 15 Pro 和 iPhone 15 Pro Max, 以及搭载 M1 及更高版本芯片的 iPad 和…

苹果即将向开发者开放 iPhone NFC 权限

苹果发布公告，宣布将面向开发者开放 iPhone 的 NFC 芯片访问权限，开发者将可以使用安全元件在其应用内使用 NFC 功能。

苹果介绍，为了将这一新解决方案整合到 iPhone 应用中，开发人员需要与 Apple 签订商业协议，请求 NFC 和安全元件权限，并支付相关费用，确保只有满足行业和监管要求，并符合苹果安全和隐私标准的开发者才能访问相关 API。

NFC 和安全元件 API 会在即将推出的 iOS 18.1 测试版中向澳大利亚、巴西、加拿大、日本、新西兰、英国和美国的开发者开放，后续还会有更多地区支持。

（Apple）

07:30 · Aug 14, 2024 · Wed

一个小站的自留地

据财联社，当地时间周日（8月11日）晚间，特斯拉CEO埃隆·马斯克在X平台上发帖称，旗下xAI公司的人工智能模型Grok 2的测试版本即将发布。截至目前，xAI已经推出了Grok 1和升级版Grok 1.5，而即将发布的Grok 2则是在此上述基础上进行了进一步升级。上个月时，马斯克就曾证实Grok 2将在几周内发布。在回答用户关于新模型训练数据的问题时，马斯克称Grok 2在性能上进行了全面升级和优化，拥有「巨大的改进」。Grok 2测试版本的发布，标志着该模型距离正式商用又迈出一步。

xAI 正式发布 Grok-2 AI 模型

xAI 公司已正式发布 Grok-2 AI 模型,这是其 Grok 系列的最新版本。此次发布包括 Grok-2 和 Grok-2 mini 两个版本,均在 X 平台(原 Twitter)上以测试版形式推出。

Grok-2 相比前代模型有显著提升:

- 增强了聊天、编码和推理能力
- 新增图像生成功能,可在 X 平台上创建图像
- 性能有望超越当前主流 AI 模型

目前,Grok-2 仅向 X 平台的 Premium 和 Premium+ 订阅用户开放。xAI 计划于本月晚些时候推出企业版 API。

xAI 表示,将把 Grok-2 集成到 X 平台的多项功能中,包括增强搜索、帖子分析和回复功能等。公司希望通过 Grok-2 的开发,推动 AI 与人类价值观的进一步对齐。

（x.ai）

05:03 · Aug 14, 2024 · Wed

一个小站的自留地

据 ChatGPT 官方 X 账号，ChatGPT 已经于上周起上线了新的模型，这一新模型属于 GPT-4o 家族，并将最快于明日上线 API。有消息称，这一新模型是此前在 LMSYS 大模型竞技场上匿名测试的anonymous-chatbot。 —————— 此前，Claude 3.5 Opus 和 Gemini 2 都被确认于今年内发布，但未有具体时间表。有预测称 Claude 3.5 Opus 已经完成训练，发布时间大约在 11 月前后，但也可能提前。 Google 方面，此前发布的 Gemini…

OpenAI 新 GPT-4o 模型重夺 LMSYS Chatbot Arena 榜首

OpenAI 近日更新了 ChatGPT 背后的 GPT-4o 模型,新版本在 LMSYS Chatbot Arena 测试中以 1314 分的成绩重新夺回第一名,超越了谷歌的 Gemini-1.5-Pro-Exp 模型。

此次更新的主要改进包括:

- 编码能力显著提升,得分提高 30 分
- 指令跟随能力增强
- 处理复杂提示的能力提升

新模型在各项分类排名中均位列第一。OpenAI 已将新版本命名为 chatgpt-4o-latest,并在 API 中提供使用。

04:55 · Aug 14, 2024 · Wed

一个小站的自留地

Gemini API 现可调用多模态能力阅读 PDF Gemini API 和 AI Studio 现在支持通过文本和视觉识别理解 PDF。如果 PDF 包含图形、图像，或其他可视内容，模型会使用内置的多模态功能来处理 PDF。用户可以通过 Google AI Studio 或 Gemini API 体验这一功能。

Google Gemini Live 发布

Google 在 Made by Google 活动上发布了 Gemini Live,这是一款移动端 AI 对话产品,支持 10 种自然语音。用户可以与 Gemini Live 进行自由流畅的对话,甚至可以在应用后台或手机锁屏时继续交互。

Gemini Live 将与多种安卓应用功能集成,目前已向 Android 手机的 Gemini Advanced 用户推出英语版本,未来几周内将扩展到 iOS 和更多语言。

同一场活动上，Google 发布了 Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL 和 Pixel 9 Pro Fold 四款新手机,均搭载全新的 Tensor G4 芯片。

Tensor G4 是由 Google DeepMind 设计、三星代工的新一代手机芯片,支持多模态 Gemini Nano 模型。新款 Pixel 手机还带来了多项 AI 增强的拍照功能,如 Add Me、重新设计的全景模式等。

Pixel 9 系列起价 799 美元,将于 8 月 22 日起陆续上市。

09:05 · Aug 13, 2024 · Tue

一个小站的自留地

GPT-4o 模型卡发布：多模态能力强化，安全评估全面 OpenAI 近日发布了 GPT-4o 模型卡，详细介绍了这一新一代多模态大语言模型的技术细节、安全评估和潜在社会影响。GPT-4o 在 GPT-4 的基础上实现了全面升级，尤其在多模态处理能力方面取得了重大突破。多模态能力方面，GPT-4o 可接受文本、音频、图像和视频输入，并生成文本、音频和图像输出。模型在音频响应速度上表现出色，平均响应时间仅为 320 毫秒，最快可达 232 毫秒，接近人类对话反应速度。在非英语文本、视觉和音频理解方面，GPT…

据 ChatGPT 官方 X 账号，ChatGPT 已经于上周起上线了新的模型，这一新模型属于 GPT-4o 家族，并将最快于明日上线 API。

有消息称，这一新模型是此前在 LMSYS 大模型竞技场上匿名测试的anonymous-chatbot。

——————

此前，Claude 3.5 Opus 和 Gemini 2 都被确认于今年内发布，但未有具体时间表。

有预测称 Claude 3.5 Opus 已经完成训练，发布时间大约在 11 月前后，但也可能提前。

Google 方面，此前发布的 Gemini 1.5 Pro (0801)在 LMSYS 大模型排行榜上霸榜至今。OpenAI 有动机通过新模型重夺榜首。

12:16 · Aug 12, 2024 · Mon

一个小站的自留地

据财联社，当地时间周日（8月11日）晚间，特斯拉CEO埃隆·马斯克在X平台上发帖称，旗下xAI公司的人工智能模型Grok 2的测试版本即将发布。

截至目前，xAI已经推出了Grok 1和升级版Grok 1.5，而即将发布的Grok 2则是在此上述基础上进行了进一步升级。

上个月时，马斯克就曾证实Grok 2将在几周内发布。在回答用户关于新模型训练数据的问题时，马斯克称Grok 2在性能上进行了全面升级和优化，拥有「巨大的改进」。Grok 2测试版本的发布，标志着该模型距离正式商用又迈出一步。

15:46 · Aug 11, 2024 · Sun

一个小站的自留地

Gemini API 现可调用多模态能力阅读 PDF

Gemini API 和 AI Studio 现在支持通过文本和视觉识别理解 PDF。如果 PDF 包含图形、图像，或其他可视内容，模型会使用内置的多模态功能来处理 PDF。

用户可以通过 Google AI Studio 或 Gemini API 体验这一功能。

06:50 · Aug 11, 2024 · Sun

一个小站的自留地

CrowdStrike 故障技术剖析:配置更新中的逻辑错误导致 Windows 蓝屏 2024 年 7 月 19 日,CrowdStrike 发布的一次配置更新引发了全球性故障,导致大量 Windows 设备出现蓝屏。故障源于 CrowdStrike Falcon 安全软件中的一个名为「通道文件」(Channel File)的配置组件。这些文件位于 Windows 系统的 C:\Windows\System32\drivers\CrowdStrike\ 目录下,文件名以「C-00000291-」开头…

CrowdStrike 发布 Channel File 291 事件根因分析报告

网络安全公司 CrowdStrike 近日发布了 Channel File 291 事件的详细技术根因分析报告。该事件发生于 2024 年 7 月 19 日，导致全球约 850 万台 Windows 系统崩溃，影响了交通、金融、医疗、零售等多个行业。

报告指出，事件源于多个技术因素的叠加。2024 年 2 月发布的 Falcon 传感器 7.11 版本引入了新的 IPC（进程间通信）模板类型，用于检测滥用命名管道的新型攻击技术。然而，该模板类型定义了 21 个输入参数字段，而调用内容解释器的集成代码只提供了 20 个输入值。这种参数数量不匹配在多重验证和测试中未被发现，部分原因是测试和初始模板实例中使用了通配符匹配标准。

7 月 19 日，两个新的 IPC 模板实例被部署，其中一个引入了第 21 个输入参数的非通配符匹配标准。内容验证器评估这些新模板实例时，错误地假设 IPC 模板类型会提供 21 个输入。当传感器接收到包含问题内容的新版 Channel File 291 时，暴露了内容解释器中潜在的越界读取问题。在下一次 IPC 通知中，新模板实例被评估，试图比较第 21 个输入值。由于内容解释器只预期 20 个值，这导致了越界内存读取，最终引发系统崩溃。

为防止类似事件再次发生，CrowdStrike 采取了包括在传感器编译时验证模板类型输入字段数量、为内容解释器添加运行时边界检查、扩大测试覆盖范围、改进内容验证器逻辑等。公司还更新了内容配置系统，引入分阶段部署机制等的多项措施，并增强了客户对快速响应内容更新的控制权。

此外，CrowdStrike 聘请了两家独立的第三方软件安全供应商，对 Falcon 传感器代码进行安全性和质量保证审查，并对整个开发到部署的质量流程进行独立评估。

CrowdStrike 成立于 2011 年，总部位于美国德克萨斯州奥斯汀，是全球领先的网络安全技术公司之一。其核心产品 Falcon 平台是一个基于云的端点保护解决方案，提供下一代防病毒、端点检测和响应、设备控制等功能。Falcon 平台通过单一轻量级代理部署，可在线或离线工作，分析尝试在端点上运行的文件。除此之外，CrowdStrike 还提供威胁情报、托管威胁搜寻、身份保护、云安全等服务，以及全天候的托管检测和响应服务。

（CrowdStrike）

01:25 · Aug 10, 2024 · Sat

一个小站的自留地

Google 正向少量 Gemini advanced 用户推送新图像生成模型 Imagen3。(仅限 beta version 15.25.31.29 及以上的安卓 App) （Raddit） Google 于 2024年6月26日发布Imagen 3，宣称这是其最先进的文本到图像AI模型。最初只允许少数创作者在ImageFX的私人视图中使用。

Imagen 3已向所有用户推出。

这是 Google 发布的，质量可与 Flux 等媲美的先进图片生成模型。

体验地址：

https://aitestkitchen.withgoogle.com/zh/tools/image-fx

00:57 · Aug 10, 2024 · Sat

一个小站的自留地

阿里云发布新一代音频语言模型Qwen2-Audio 阿里云Qwen团队近日官宣了最新的大规模音频语言模型Qwen2-Audio。该模型在音频理解和交互能力方面取得显著进展，为语音助手、音频内容分析等应用领域开辟了新的可能性。 Qwen2-Audio的主要特点和创新如下： 1. 双模式交互：支持语音聊天和音频分析两种模式。在语音聊天模式下，用户可以直接与模型进行语音对话；在音频分析模式下，用户可以上传音频文件进行转录和分析。模型能够智能识别用户意图，在两种模式间无缝切换，无需用户手动操作。 2. 多样化音频处理能力：…

Qwen2-Audio 已经开源。

https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

10:13 · Aug 9, 2024 · Fri

Anthropic 公司 Claude 3.5 Sonnet 模型出现部分服务中断

8 月 8 日，Anthropic 公司旗下的 Claude 3.5 Sonnet 模型在 Claude.ai 网站和 API 接口上出现了计划外的服务中断。公司表示已采取缓解措施,错误率正在下降,预计问题将很快得到完全解决。

故障期间，免费用户均无法使用Claude 3.5 Sonnet，而是被重定向到 Haiku 模型。

Anthropic 对此次服务中断给用户工作流程带来的影响表示歉意,并承诺将与基础设施提供商一起对此次事件进行全面审查,以防止此类问题再次发生。

根据 Anthropic 状态页面最新更新， api.anthropic.com 自 16:36 UTC 起已恢复稳定运行，Google Vertex AI 上的 Claude 服务自 17:15 UTC 起也恢复正常。 Claude.ai 网站现已恢复使用 Sonnet 3.5 模型。Anthropic 表示将继续密切监控底层问题,并与基础设施提供商合作防止进一步中断。

官方服务状态页面 https://status.anthropic.com 显示，发稿前，该故障已经解决。

(Anthropic)

04:46 · Aug 9, 2024 · Fri

一个小站的自留地

阿里云发布新一代音频语言模型Qwen2-Audio 阿里云Qwen团队近日官宣了最新的大规模音频语言模型Qwen2-Audio。该模型在音频理解和交互能力方面取得显著进展，为语音助手、音频内容分析等应用领域开辟了新的可能性。 Qwen2-Audio的主要特点和创新如下： 1. 双模式交互：支持语音聊天和音频分析两种模式。在语音聊天模式下，用户可以直接与模型进行语音对话；在音频分析模式下，用户可以上传音频文件进行转录和分析。模型能够智能识别用户意图，在两种模式间无缝切换，无需用户手动操作。 2. 多样化音频处理能力：…

阿里云发布 Qwen2-Math 数学模型

阿里云 Qwen 团队发布了专注数学领域的大语言模型系列 Qwen2-Math。该系列模型基于 Qwen2 构建,包含 15 亿、70 亿和 720 亿参数三个版本,目前仅支持英文。

Qwen2-Math 在多项数学基准测试中表现出色。其中最大的 Qwen2-Math-72B-Instruct 模型在 Math 基准上的得分达到 84%,超越了 GPT-4o、Claude 3.5 Sonnet 等闭源模型。在 GSM8K 等其他测试中,该模型也取得了领先成绩。

此外,Qwen2-Math 还在 AIME 2024、AMC 2023 等复杂数学竞赛评测中展现了优秀能力。研究团队表示,未来将推出支持中英双语的版本,并进一步增强模型解决高级数学问题的能力。

（QwenLM）

04:32 · Aug 9, 2024 · Fri

一个小站的自留地

OpenAI 发布两项小更新 - GPT-4o 模型卡发布，介绍模型安全及多模态细节等。 https://openai.com/index/gpt-4o-system-card/ - 从今天起，ChatGPT 免费用户每天最多可使用 DALL·E 创建两张图片。

GPT-4o 模型卡发布：多模态能力强化，安全评估全面

OpenAI 近日发布了 GPT-4o 模型卡，详细介绍了这一新一代多模态大语言模型的技术细节、安全评估和潜在社会影响。GPT-4o 在 GPT-4 的基础上实现了全面升级，尤其在多模态处理能力方面取得了重大突破。

多模态能力方面，GPT-4o 可接受文本、音频、图像和视频输入，并生成文本、音频和图像输出。模型在音频响应速度上表现出色，平均响应时间仅为 320 毫秒，最快可达 232 毫秒，接近人类对话反应速度。在非英语文本、视觉和音频理解方面，GPT-4o 较之前版本有显著提升。

GPT-4o 模型卡披露了部分模型架构、训练方式和语料来源等技术细节，但并未完全公开所有信息。模型采用自回归全模态（autoregressive omni）架构，通过端到端训练将文本、视觉和音频输入输出整合到同一神经网络中处理。预训练数据截止到 2023 年 10 月，来源包括公开可用数据、专有数据、网络数据、代码和数学数据，以及多模态数据。OpenAI 表示在预训练阶段进行了数据过滤，如使用审核 API 和安全分类器过滤有害内容，减少个人信息等。

安全评估是此次 GPT-4o 模型卡的重点内容。OpenAI 采用了多层次的评估方法：

1. 内部和外部红队测试：邀请了来自 45 种语言背景、29 个国家的 100 多名专家参与评估。

2. 准备框架评估：涵盖网络安全、CBRN（化学、生物、放射性、核）、说服力和模型自主性等风险领域。

3. 第三方独立评估：委托 METR 和 Apollo Research 进行额外验证。结果显示，GPT-4o 在自主能力方面相比 GPT-4 并无显著提升，且不太可能具备灾难性欺骗能力。

研究发现，GPT-4o 在多数领域风险较低，但在说服力方面呈现「中等」风险。评估还揭示了一些潜在问题，如在高背景噪声环境下可能模仿用户声音，以及在特定提示下可能生成不当内容。

OpenAI 还特别关注了几个关键风险领域并采取了相应措施：

- 未经授权的语音生成：限制使用预设声音，使用输出分类器检测偏差。
- 说话者识别：训练模型拒绝基于音频识别个人。
- 生成受版权保护的内容：训练模型拒绝此类请求，过滤音乐输出。
- 无根据推断/敏感特征归因：训练模型拒绝或谨慎回答相关问题。
- 违规和禁止内容：使用现有审核模型检查文本转录。

GPT-4o 模型卡还讨论了可能带来的社会影响，包括在医疗健康、科学研究和小语种处理等领域的应用前景和潜在风险。例如，在医疗评估中，GPT-4o 在 MedQA USMLE 4 选项测试中的零样本（zero-shot）准确率达到了 89.4%，超过了许多专业医疗模型。

OpenAI 强调，尽管 GPT-4o 在多个领域展现出强大能力，但仍存在一些已知限制，如音频输入的鲁棒性问题、非英语语言的口音问题等。公司表示将继续监控和更新缓解措施，以应对不断变化的 AI 风险格局。

（OpenAI）

——————

此举在 OpenAI CEO 山姆·奥特曼发布引发猜测的「草莓」图片后不久，引起了国内媒体广泛关注和讨论。

不久前，OpenAI 宣布任命卡耐基梅隆大学机器学习系教授兼主任 Zico Kolter 为公司新董事会成员，以加强公司在 AI 安全性方面的专业知识。

另外，本频早前报道的 LYSMS 大模型竞技场中出现的 anonymous-chatbot 被广泛认为可能是 OpenAI 的新模型，引发了对公司可能即将发布更强大模型的猜测。

Hugging Face的研究员Lucie-Aimée Kaffee指出,GPT-4o系统卡仍存在漏洞,如缺少关于模型训练数据的详细信息。也有不少用户对此次发布表示失望，期待更实质性的产品发布，但 OpenAI 联合创始人 Greg Brockman 表示公司内部对最近的进展非常满意。

（The Verge、机器之心）

00:54 · Aug 9, 2024 · Fri

一个小站的自留地

OpenAI 推出GPT-4o-2024-08-06模型，加量还减价 - 最大输出从之前的4K tokens提升到16K tokens。 - 支持强大的JSON格式结构化输出能力,在复杂JSON schema评测中取得100%的完美成绩。 - 输入成本降低50%,为每百万tokens $2.50。 - 输出成本降低33%,为每百万tokens $10.00。 - 总体比GPT-4 Turbo便宜约50%。 Ref: https://openai.com/index/introducing-structured…

OpenAI 发布两项小更新

- GPT-4o 模型卡发布，介绍模型安全及多模态细节等。

https://openai.com/index/gpt-4o-system-card/

- 从今天起，ChatGPT 免费用户每天最多可使用 DALL·E 创建两张图片。

04:52 · Aug 8, 2024 · Thu

一个小站的自留地

疑似来自 OpenAI 的新模型 anonymous-chatbot 上线 LMSYS 大模型竞技场

一个名为 anonymous-chatbot 的神秘大语言模型出现在 LMSYS 大模型竞技场上，但根据用户反馈，其性能表现出色，在某些任务上甚至超越了当前最先进的模型。

据用户报告，anonymous-chatbot 在多项测试中表现优异，包括成功完成了「草莓测试」和「过河难题」等逻辑推理任务。该模型还能正确回答 9.9 和 9.11 大小比较等需要精确数学计算的问题。另一位用户表示，该模型能够一次性解决所有逻辑测试谜题，展现出强大的问题解决能力。

也有用户反馈，该匿名模型仅擅长推理，而在其他模型能正常表现的常规任务下表现一般。

值得注意的是，OpenAI CEO Sam Altman 在社交平台 X 上发布了一张草莓园的照片，配文「我喜欢花园里的夏天」。这一举动被广泛解读为对传闻已久的 OpenAI 新项目「Strawberry」（草莓）的暗示。尽管 Altman 本人并未直接确认，但这一巧合进一步加剧了人们对 anonymous-chatbot 与 OpenAI 可能存在关联的猜测。

Before

After