OpenAI 近日发布了 GPT-4o 模型卡,详细介绍了这一新一代多模态大语言模型的技术细节、安全评估和潜在社会影响。GPT-4o 在 GPT-4 的基础上实现了全面升级,尤其在多模态处理能力方面取得了重大突破。
多模态能力方面,GPT-4o 可接受文本、音频、图像和视频输入,并生成文本、音频和图像输出。模型在音频响应速度上表现出色,平均响应时间仅为 320 毫秒,最快可达 232 毫秒,接近人类对话反应速度。在非英语文本、视觉和音频理解方面,GPT-4o 较之前版本有显著提升。
GPT-4o 模型卡披露了部分模型架构、训练方式和语料来源等技术细节,但并未完全公开所有信息。模型采用自回归全模态(autoregressive omni)架构,通过端到端训练将文本、视觉和音频输入输出整合到同一神经网络中处理。预训练数据截止到 2023 年 10 月,来源包括公开可用数据、专有数据、网络数据、代码和数学数据,以及多模态数据。OpenAI 表示在预训练阶段进行了数据过滤,如使用审核 API 和安全分类器过滤有害内容,减少个人信息等。
安全评估是此次 GPT-4o 模型卡的重点内容。OpenAI 采用了多层次的评估方法:
1. 内部和外部红队测试:邀请了来自 45 种语言背景、29 个国家的 100 多名专家参与评估。
2. 准备框架评估:涵盖网络安全、CBRN(化学、生物、放射性、核)、说服力和模型自主性等风险领域。
3. 第三方独立评估:委托 METR 和 Apollo Research 进行额外验证。结果显示,GPT-4o 在自主能力方面相比 GPT-4 并无显著提升,且不太可能具备灾难性欺骗能力。
研究发现,GPT-4o 在多数领域风险较低,但在说服力方面呈现「中等」风险。评估还揭示了一些潜在问题,如在高背景噪声环境下可能模仿用户声音,以及在特定提示下可能生成不当内容。
OpenAI 还特别关注了几个关键风险领域并采取了相应措施:
- 未经授权的语音生成:限制使用预设声音,使用输出分类器检测偏差。
- 说话者识别:训练模型拒绝基于音频识别个人。
- 生成受版权保护的内容:训练模型拒绝此类请求,过滤音乐输出。
- 无根据推断/敏感特征归因:训练模型拒绝或谨慎回答相关问题。
- 违规和禁止内容:使用现有审核模型检查文本转录。
GPT-4o 模型卡还讨论了可能带来的社会影响,包括在医疗健康、科学研究和小语种处理等领域的应用前景和潜在风险。例如,在医疗评估中,GPT-4o 在 MedQA USMLE 4 选项测试中的零样本(zero-shot)准确率达到了 89.4%,超过了许多专业医疗模型。
OpenAI 强调,尽管 GPT-4o 在多个领域展现出强大能力,但仍存在一些已知限制,如音频输入的鲁棒性问题、非英语语言的口音问题等。公司表示将继续监控和更新缓解措施,以应对不断变化的 AI 风险格局。
(OpenAI)
——————
此举在 OpenAI CEO 山姆·奥特曼发布引发猜测的「草莓」图片后不久,引起了国内媒体广泛关注和讨论。
不久前,OpenAI 宣布任命卡耐基梅隆大学机器学习系教授兼主任 Zico Kolter 为公司新董事会成员,以加强公司在 AI 安全性方面的专业知识。
另外,本频早前报道的 LYSMS 大模型竞技场中出现的 anonymous-chatbot 被广泛认为可能是 OpenAI 的新模型,引发了对公司可能即将发布更强大模型的猜测。
Hugging Face的研究员Lucie-Aimée Kaffee指出,GPT-4o系统卡仍存在漏洞,如缺少关于模型训练数据的详细信息。也有不少用户对此次发布表示失望,期待更实质性的产品发布,但 OpenAI 联合创始人 Greg Brockman 表示公司内部对最近的进展非常满意。
(The Verge、机器之心)