2024 年 12 月 27 日,OpenAI 发布博客宣布,其董事会正在评估公司结构,以确保通用人工智能 (Artificial General Intelligence, AGI) 能够造福全人类。OpenAI 计划通过调整其营利与非营利结构,进一步推动其使命的实现。
OpenAI 成立于 2015 年,最初是一个非营利研究实验室,致力于推动数字智能的发展,不受资金回报需求的限制。随着人工智能 (Artificial Intelligence, AI) 技术的进步,尤其是大语言模型 (Large Language Model, LLM) 的发展,OpenAI 意识到需要更多的计算资源和资本来继续其使命。因此,2019 年 OpenAI 成立了一个营利性公司,由非营利组织控制,旨在通过营利性公司的成功来支持非营利组织的长期发展。
OpenAI 的董事会提出了三个主要目标:
一是选择最适合长期使命的非营利/营利结构,计划将其现有的营利性公司转变为特拉华州公共利益公司 (Public Benefit Corporation, PBC),以平衡股东利益、利益相关者利益和公共利益;
二是确保非营利组织的可持续发展,通过营利性公司的成功,非营利组织将获得更多的资源,成为历史上资源最丰富的非营利组织之一;
三是让每个部门各司其职,PBC 将负责 OpenAI 的运营和业务,而非营利组织将专注于医疗、教育和科学等慈善事业。
OpenAI 计划在 2025 年进一步转型,成为一家可持续的企业。通过将营利性公司转变为 PBC,OpenAI 将能够以常规条款筹集更多资本,同时确保非营利组织获得充足的资源。PBC 将负责 OpenAI 的运营,而非营利组织将专注于慈善事业。
部分网友对 OpenAI 的营利性转变表示质疑,认为这可能与其最初的「非营利」初衷相悖。此外,OpenAI 的创始人之一 Elon Musk 曾因公司转向营利性而提起诉讼,进一步加剧了外界的质疑。
(OpenAI)
当地时间 2024 年 12 月 26 日下午,OpenAI 的 ChatGPT、API 和 Sora 服务出现大面积中断,影响了全球用户。此次中断报告于美国东部时间下午 1:30 左右开始激增,用户无法正常访问或使用这些服务。Downdetector.com 上报告了超过 50,000 起 ChatGPT 服务中断事件,用户尝试使用 ChatGPT 时收到「内部服务器错误」的消息。
OpenAI 在美国东部时间下午 4:05 发布更新,表示正在修复问题,问题由一个未具名的互联网服务提供商引起。截至美国东部时间下午 7:05,ChatGPT 正在恢复,但聊天记录仍未加载,API 和 Sora 已恢复运行。OpenAI 于太平洋标准时间下午 6:04 更新称,ChatGPT 已基本恢复,他们将继续致力于全面修复。
故障原因可能与微软 Azure 数据中心有关。作为 OpenAI 的独家云服务提供商,微软 Azure 当天报告了数据中心出现「电源」问题,这可能是导致 OpenAI 服务中断的原因。The Verge 报道称,南美中部数据中心出现电力故障,影响了多项服务。
这是 ChatGPT 本月第二次中断,此前两周曾发生过一次约 6 小时的中断。
(综合媒体报道)
2024 年 12 月 26 日,DeepSeek AI 正式发布新一代混合专家模型 DeepSeek V3。该模型已在官网 chat.deepseek.com 上线,API 服务同步更新且接口配置无需改动。
DeepSeek V3 采用了混合专家 (MoE) 架构,总参数量达 671B,其中每个词元激活 37B 参数。在预训练阶段共消耗超过 14.8 万亿高质量词元。在三重评测中,该模型展现了强大实力:在美国数学竞赛和全国高中数学联赛上超越所有已知模型;在算法类代码场景远超其他普通模型;特别是在知识类评测上,DeepSeek V3 已经接近目前最强的 Claude-3.5-Sonnet-1022。
DeepSeek V3 在教育知识评测 MMLU 上达到 88.5,显著超越其他开源模型;在代码竞赛基准 Codeforces 上位列前 51.6%,大幅领先业内表现;在数学能力评测 MATH-500 上取得 90.2 的成绩,创下了非 o1 类语言模型的新记录。特别值得一提的是,该模型在 AlpacaEval 2.0 上获得 70.0 的成绩,这一指标是评估模型开放式对话能力的重要标准。
——————
DeepSeek V3 采用了一种无需额外损失函数的负载均衡策略,并设置了多次词元预测的训练目标。这两项创新分别解决了混合专家模型中的两大难题:负载均衡与推理速度。
在工程实现层面,DeepSeek V3 首次在超大规模模型上验证了 FP8 混合精度训练的可行性,并通过算法、框架和硬件的协同设计,几乎完全消除了跨节点通信的额外开销。
在部署方面,DeepSeek V3 原生采用 FP8 训练并开源权重。目前 SGLang 和 LMDeploy 已支持原生 FP8 推理,TensorRT-LLM 和 MindIE 则支持 BF16 推理。开发者可通过 Hugging Face 获取模型权重和部署工具。
价格方面,从即日起至 2025 年 2 月 8 日,API 服务将维持优惠价格:每百万输入词元 0.1 元(缓存命中)或 1 元(缓存未命中),每百万输出词元 2 元。优惠期结束后,价格将调整为每百万输入词元 0.5 元(缓存命中)或 2 元(缓存未命中),每百万输出词元 8 元。除了 API 服务外,DeepSeek V3 还提供了完整的开源授权,支持商业化应用。
(综合 DeepSeek AI 官方微信公众号,DeepSeek V3 技术报告,GitHub Page)
今年 6 月,小红书曾推出 AI 功能「达芬奇」,以一种试验性方式上线。但「达芬奇」自 7 月后再无更新,仿佛被遗忘。然而,小红书日前推出了一款新 AI 搜索产品——「点点」,已上线各大应用商店。
「点点」专注于生活场景搜索,由上海生动诗章科技有限公司开发,法人为小红书产品经理魏旷,其主要功能包括:定位用户位置,推送相关旅游、美食信息;根据需求总结全网信息,尤其是小红书内容;用户可拍照提问,获取视频回复。
此外,小红书正在其平台内小范围测试新功能「问『点点』」,用户可在搜索栏中直接跳转至「点点」获取 AI 生成的答案。这表明小红书正在逐步将 AI 功能巧妙地融入到现有内容生态中,以增强用户体验,而非颠覆,从而潜移默化地引导用户适应 AI 的辅助作用。小红书似乎正小心翼翼地增强其平台功能,确保用户逐渐接受 AI 增强的内容创作和搜索体验。
(特工宇宙)
OpenAI 于 12 月 21 日发布了新一代推理引擎 o3 及其轻量版 o3-mini。新模型在数学、编程等多个领域展现出惊人的能力提升,但也因其高昂的计算成本引发关注。
o3 在编程能力上取得重大突破。在著名编程竞赛平台 CodeForces 上获得 2727 分,位列全球第 175 名,超过了 OpenAI 首席科学家 2665 分的历史最高分。在软件工程基准 SWE-bench Verified 测试中,o3 准确率达到 71.7%,比前代 o1 模型高出约 20 个百分点。
在数学领域,o3 在美国数学竞赛 AIME 2024 中取得 96.7% 的准确率,仅错一题。在由 60 多位顶尖数学家共同开发的 Frontier Math 基准测试中,o3 解决了 25.2% 的问题,远超此前其他模型不足 2% 的表现。OpenAI 研究副总裁 Mark Chen 表示,即使专业数学家解决其中一道题目也需要数小时到数天时间。
值得关注的是,o3 在 ARC-AGI 基准测试中首次超越人类水平。在高计算资源配置下,o3 达到 87.5% 的准确率,超过了人类 85% 的基准线。然而,ARC-AGI 创始人 François Chollet 指出,o3 在许多简单任务上仍表现不佳,这表明其与真正的通用人工智能(AGI)仍有本质差距。
o3 的高性能背后是极高的计算成本。据 Keras 之父 François Chollet 披露,o3 在低计算量模式下每个任务需要花费约 20 美元,而在高计算量模式下单个任务成本可达数千美元。相比之下,o1 的成本要低得多。
OpenAI 同时推出了面向普及的轻量版本 o3-mini,支持低、中、高三种推理时间选项。北大校友、OpenAI 研究科学家任泓宇展示了 o3-mini 在代码生成和科学问答等任务上的出色表现。o3-mini 预计将于 2025 年 1 月底向公众开放。
目前 o3 和 o3-mini 仍处于安全测试阶段,仅向特定研究人员开放。感兴趣的用户可通过 OpenAI 官网申请早期测试资格。OpenAI CEO Sam Altman 表示,公司计划在明年初正式推出这两款模型。
(综合媒体报道)
有网友体验表示,该模型的智力和 OpenAI 的 o1 仍有较大差距,但得益于这是一个 Flash 模型,推理速度较 o1 有显著优势。
WordPress.org 于 2024 年 12 月 20 日宣布,因商业诉讼压力暂停多项免费服务,包括新账户注册、插件及主题目录的新提交和评论功能、照片目录新提交等。本次暂停不影响本地化和论坛等基础服务。恢复时间未定。
WordPress.org 称,此举是为了让疲惫的志愿者在假期得到休息。但背后的原因是 WP Engine 对 Automattic 和 WordPress.org 所有者的诉讼。如果败诉,后者可能面临数百万美元赔偿。值得注意的是,WP Engine 不受此次服务暂停影响。
此前,WP Engine 刚刚在与 Automattic 的诉讼中获得初步禁令支持。此次服务暂停被认为是对该判决的回应。这一决定已在开发者社区引发争议,有意大利开发者因新增的"披萨偏好"必选项感到不满。
(薇晓朵)
当地时间 2024 年 12 月 11 日,OpenAI 遭遇了一次严重的全平台服务中断事件。本次事件起因于一个新的遥测服务部署,意外导致了 Kubernetes 控制平面崩溃,进而引发了全系统性的服务降级。事件发生在当地时间下午 3 时 16 分,直至晚间 7 时 38 分才完全恢复。
本次事件的主要原因在于一个新部署的遥测服务配置错误,导致集群中每个节点都执行了大量资源密集型的 Kubernetes API 操作。由于这些操作的开销随集群规模增长,最终使得 Kubernetes API 服务器不堪重负。虽然 Kubernetes 的数据平面可以独立运行,但 DNS 服务依赖于控制平面,这导致了服务发现系统的级联故障。
时间线:
- 12 月 10 日:新遥测服务在临时集群测试通过
- 12 月 11 日 14 时 23 分:变更合并,部署流程启动
- 14 时 51 分至 15 时 20 分:变更应用到所有集群
- 15 时 13 分:系统告警触发
- 15 时 16 分:用户开始受到影响
- 19 时 38 分:所有服务完全恢复
OpenAI 表示,此次事件源于一次内部变更,与安全事件或产品发布无关。具体原因是新部署的遥测服务意外导致 Kubernetes 控制平面过载,进而引发连锁故障。目前所有服务已恢复正常运行,公司正在落实多项技术改进措施以防止类似事件再次发生。
(OpenAI)
2024 年 12 月 12 日,OpenAI 旗下的 API、ChatGPT 和 Sora 系统遭遇了严重服务中断问题,导致用户无法正常调用 API 和登录平台。根据 OpenAI 的更新公告,问题于北京时间 12 月 12 日上午 7:17 开始被调查,在此之后快速展开修复工作。
OpenAI 在 8:24 宣布已经找到了问题的原因,并正在全力推出解决方案。尽管中断期间 ChatGPT、Sora 以及 API 功能受到了较大影响,工程团队表示正在加紧恢复服务,并对给用户带来的不便表示歉意。
截至 8:55,部分流量已经恢复正常,团队继续努力将所有服务返回到正常状态。OpenAI 重申正在推进修复,尽快恢复完整功能。
(OpenAI Status)
该模型并未在面向开发者的 AI Studio 上出现过,而是直接灰度推送给了 Gemini 的部分用户。
——————
Google 发布 Gemini 2 Flash。开发者现在就可以在AI Studio和Vertex AI上试用Gemini 2.0 Flash,完整版本将于明年1月全面推出。
Google 宣称新的 Gemini 2.0 支持实时的文本、视频、语音和屏幕共享,速度是上代的两倍,性能和 Gemini 1.5 Pro 相近。
——————
在本次直播中,OpenAI 研究员 Karina Nguyen 展示的新功能界面中出现了ChatGPT ε(第五个希腊字母,读作Epsilon)。网友猜测,这极可能就是之前被传出的下一代模型「猎户座 Orion」。这一模型将有可能在本次 OpenAI 12 天连更中亮相。
媒体此前报道,由于训练「猎户座」使用了先前模型(GPT-4和o1)生成的数据,可能导致它重现旧模型的一些行为,最终质量提升小于从GPT-3到GPT-4的飞跃。因此 OpenAI 大概率不会将其命名为 GPT-5。
OpenAI 于 12 月 10 日凌晨在其连续 12 天直播活动的第三天,正式向公众发布了期待已久的文生视频模型 Sora。这是自今年 2 月首次展示以来,Sora 首次面向大众开放。
本次发布的是全新的 Sora Turbo 模型,相比 2 月版本在性能和效率上都有显著提升。用户可以通过 sora.com 网站生成视频,该服务已整合进 ChatGPT 的会员体系。20 美元每月的 ChatGPT Plus 会员每月可生成最多 50 个视频,最高支持 720p 分辨率和 5 秒时长;200 美元每月的 Pro 会员则可生成最多 500 个视频,支持 1080p 分辨率和 20 秒时长,并可无水印下载。
Sora 的产品体验超出预期,不仅是简单的视频生成工具,更像是一个完整的创意工作平台。其核心功能包括:
故事板(Storyboard):允许用户在时间轴上设计分镜,为每一帧添加不同的文本描述,实现连贯的故事叙述。
重混(Remix):用户可通过文本提示词修改已生成视频的特定元素,且支持调节修改强度。
混合(Blend):能将两段不同视频无缝融合,创造出独特的过渡效果。
循环(Loop):可生成完美循环的视频片段。
风格预设:提供多种预设风格模板,包括纸版、黑白电影、怀旧录像等。
平台还设有社区功能,用户可以在 Featured 和 Recent 版块浏览他人作品,查看生成提示词,汲取创作灵感。
在技术层面,Sora 采用了扩散模型和 Transformer 架构,借鉴了大语言模型在互联网规模数据上训练的范式。OpenAI 引入了视觉块(visual patches)的概念,有效统一了视频和图像的表示方式。这种技术创新使得 Sora 能够生成具有连贯性的长视频,并保持画面中物体的一致性。
为确保安全使用,OpenAI 采取了多重防护措施。所有由 Sora 生成的视频都会嵌入 C2PA 元数据以标明其 AI 生成属性,并默认添加可见水印。系统还限制了人物照片和视频的上传,禁止生成包含未成年人、暴力和色情的内容。在技术层面,OpenAI 通过多模态审核分类器、自定义大语言模型过滤、图像输出分类器等多重机制进行内容审核。
不过,目前的 Sora 仍存在一些局限性。据早期测试者反馈,模型在物理规律模拟方面还不够完善,经常出现物体突然消失或穿透等问题。在处理包含腿部运动的对象时,也会出现前后腿位置混乱的情况。此外,由于访问量过大,目前 Sora 的新用户注册已暂时关闭。该服务目前在全球大部分地区可用,但受限于监管原因,英国和欧盟地区暂未开放。
OpenAI 表示,将继续完善安全机制,并计划在明年推出针对不同用户群体的定制定价方案。
(综合媒体报道)
OpenAI 即将发布面向公众开放的视频生成模型
GitHub 宣布,Copilot Chat 在其官方网站、移动应用、命令行工具及支持的集成开发环境中,已支持 OpenAI GPT-4o 的 64K 词元上下文窗口。此次升级将为用户处理大型文件和代码仓库时提供更好的响应体验。
GitHub 表示,所有 Copilot 用户无需任何操作即可使用此功能。新版本将帮助 Copilot 在执行技能时检索更多信息,从而提供更贴合上下文的回应。
值得一提的是,Visual Studio Code Insiders 版本的 GitHub Copilot 用户可以使用高达 128K 的上下文窗口,这也是 GPT-4o 支持的最大容量。
(GitHub Blog)
Meta 发布了新一代大语言模型 Llama 3.3 70B,该模型采用优化的 Transformer 架构,支持 128k 的上下文长度,并通过监督式微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 进行训练。
官方宣称,Llama 3.3 70B 的性能与 Llama 3.1 405B 模型相当。
Llama 3.3 的主要特点包括:
- 支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等 8 种语言
- 在多个基准测试中展现出色表现,如在 MMLU 测试中达到 86%,HumanEval 代码评估达到 88.4%
- 训练数据量超过 15 万亿词元,训练截止日期为 2023 年 12 月
据 Meta 介绍,Llama 3.3 在合成数据生成和知识蒸馏等应用场景中表现优异。模型已通过 Llama 3.3 社区许可协议开源,可用于商业和研究用途。
(Meta)
作为连更的第二天,OpenAI 则发布了强化微调(Reinforcement Fine-Tuning, RFT),允许用户基于少量数据,通过强化学习优化模型的推理能力,显著提升其在特定领域(比如编程、金融、法律、医疗和科学研究)的专业表现。
而 o1 Pro,作为比满血版更昂贵的存在,仅限ChatGPT Pro 套餐用户使用。
满血版 o1 现已面向 ChatGPT Plus 和 Team 用户推出,而 Enterprise 和 Edu 用户将从下周开始使用。