起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/+a5Clq4jLuJc4YWQ9
一个小站的自留地
据华为终端消息,9月10日14:30,华为将举行见非凡品牌盛典及鸿蒙智行新品发布会。
微信鸿蒙原生版开启内测邀请

腾讯宣布微信鸿蒙原生版正式开始邀请内测。此次内测对象为已升级至原生鸿蒙操作系统HarmonyOS NEXT的用户,用户在收到邀请后可抢先体验新版本。

据了解,腾讯这款「尝鲜版」的微信,已包含基础社交通讯,音视频通话、朋友圈、微信支付的二维码收/付款等功能。

(鹅厂黑板报)
一个小站的自留地
Apple 2024 秋季发布会:iPhone 16 系列、Apple Watch Series 10、AirPods 4 重磅亮相 2024 年 9 月 10 日凌晨,Apple 如期举行了备受期待的秋季发布会,主题为「It's Glowtime」。本次发布会上,Apple 推出了 iPhone 16 系列、Apple Watch Series 10、AirPods 4 等多款新品。虽然硬件更新并未带来太多惊喜,但围绕 AI 的发展方向和应用引发了广泛讨论。 iPhone 16 系列:全新相机控制键与…
iPhone SE 4将搭载苹果自研5G 基带

据华尔街见闻从供应链独家获悉,iPhone SE 4将搭载苹果自研5G Modem。

另据10月4日公开消息,苹果公司预计将于2025年春季推出第四代iPhone SE,这款机型将首次采用OLED屏幕,售价可能为459美元-499美元,约合人民币3221元-3502 元。

(华尔街见闻)
#Update #ChatGPT

OpenAI 刚刚发布了 ChatGPT Canvas 功能:

- 专为代码和写作场景设计
- Canvas 在独立窗口打开
- 为写作场景提供的快捷方式:建议、修改长度、修改写作水平等
- 为代码场景提供的快捷方式:代码审查、添加日志、修复 bug、代码语言转换等

从今天开始,向 Plus 和 Team 用户灰度推出,选择 GPT-4o with canvas 模型即可体验。
一个小站的自留地
据@数字生命卡兹克,Runway Gen-3 Alpha近日面向部分超级合作者开放。 @数字生命卡兹克 认为,Gen-3 Alpha在模型质量上确实超越了Luma和可灵等竞品,特别是在审美方面。虽然与真实世界相比仍有差距,但已经是当前AI视频生成领域的佼佼者。 在写实风格测试中,人物特写和风景表现最为稳定,但涉及人物与物体交互时仍存在一些问题。动画风格整体表现较弱,显示出数据集的不足。科幻风格则是Gen-3 Alpha的强项,表现出色。玄幻风格虽不及科幻,但在西方题材上仍有不错发挥。抽象风格的表现令人…
Pika 1.5 发布,AI 视频生成特效突破物理法则

Pika Labs(也称为 Pika)近日宣布推出其最新的 AI 视频生成模型 Pika 1.5。据 VentureBeat 报道,这一版本以突破物理法则的 AI 特效而闻名。新版本的 Pikaffects 可以将图像和预录视频中的对象转变为极其可塑的版本。

Pika 最初于 2023 年 11 月通过 1.0 版本的文本生成视频 AI 平台进入市场,并在短时间内筹集了 3500 万美元的 A 轮融资。尽管在过去的一年里,许多竞争对手发布了更新的模型,如 Runway 的 Gen-3 Alpha Turbo 和 Luma AI 的 Dream Machine 1.5,但 Pika 一直保持沉默,直到最近推出了全新的 Pika 1.5。

新版本的 Pika 1.5 引入了令人惊叹的特效「Pikaffects」,包括爆炸、融化、压碎、膨胀等效果。这些特效可以通过一个新按钮实现,甚至可以将静态图像中的对象变成栩栩如生的动态视频。

据 VentureBeat 报道,Pika 1.5 还改进了图像生成视频(i2v)和文本生成视频(t2v)的工作流程,使用户能够创建高质量的五秒视频片段,并包含跑步、滑板甚至飞行等逼真的动作。平台还增加了新的运动控制功能,使用户能够轻松捕捉专业级别的动态镜头,如「子弹时间」、眩晕效果等。

除了新特效,付费用户仍然可以选择使用旧版本 Pika 1.0 及其提供的 Lip Sync 和 AI 音效功能。值得注意的是,尽管订阅价格保持不变,但每生成一个五秒的视频片段将需要 15 个积分。

(综合媒体报道)
OpenAI DevDay 2024 发布多项功能更新

OpenAI 于 2024 年 10 月 1 日在旧金山举行了第二届 DevDay 开发者大会。与去年相比,今年的大会规模虽然相对低调,但仍推出了多项重要创新,包括实时 API、视觉微调、模型蒸馏和提示缓存

实时 API:实现语音到语音体验

据 Simon Willison 的现场报道,OpenAI 发布了实时 API 的公测版,允许付费开发者在应用中构建低延迟的多模态体验。该 API 支持自然的语音到语音对话,类似于 ChatGPT 的高级语音模式,并提供六种预设语音。

实时 API 简化了创建语音助手和其他会话 AI 工具的过程,消除了将多个模型组合用于转录、推理和文本到语音转换的需要。例如,语言学习应用 Speak 已经使用实时 API 来驱动其角色扮演功能,鼓励用户练习用新语言进行对话。

实时 API 的定价为每百万输入 tokens 5 美元和每百万输出 tokens 20 美元,音频输入为每百万 tokens 100 美元,音频输出为每百万 tokens 200 美元。

视觉微调:定制 GPT-4o 的图像理解能力

OpenAI 现在允许开发者通过图像和文本微调 GPT-4o,提升其视觉理解能力。这一功能为改进视觉搜索、自动驾驶汽车中的物体检测以及医学图像分析等应用提供了新的可能性。

据 Maginative 报道,东南亚的一家食品配送和共享出行公司 Grab 利用这一技术,将车道计数的准确性提高了 20%,限速标志的定位准确性提升了 13%。

提示缓存:降低成本和延迟

OpenAI 引入了提示缓存功能,旨在降低开发者成本和延迟。根据 VentureBeat 的报道,该功能会自动对模型最近处理过的输入 tokens 应用 50% 的折扣,对于频繁重复使用上下文的应用来说,这可能会带来成本的大幅降低。

提示缓存将自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini,以及这些模型的微调版本。

模型蒸馏:简化 AI 模型开发

OpenAI 推出了新的模型蒸馏工具,使得开发者可以利用大型模型(如 GPT-4o 和 o1-preview)的输出来提升小型模型(如 GPT-4o mini)的性能。据 TechCrunch 报道,这一集成工作流程包括存储完成和评估功能,允许开发者在 OpenAI 平台内捕获输入输出对、微调模型并评估性能。

这种方法使得小型公司能够利用与高级模型相似的能力,而无需承担相同的计算成本。模型蒸馏将有助于缩小 AI 行业中尖端、资源密集型系统与更易访问但能力较弱的系统之间的差距。

(综合媒体报道,图:maginative
美团平台疑似发生用户信用卡信息泄露事件

据多个来源的讨论,美团平台疑似发生用户信用卡信息泄露事件,涉及非银联卡组织的信用卡用户。此次事件中,受影响的用户为在美团绑定 VISA、Mastercard、AMEX 以及银联国际等国际卡的用户,泄露信息包括卡号、有效期及 CVV 等敏感信息。

多位美团用户反馈其绑定的外卡(包括银联国际)出现被盗刷现象。据用户报告,包括汇丰银行(HSBC)香港 Mastercard 在内的多张信用卡被盗刷,盗刷金额从小额认证到数千港币不等。值得注意的是,这些被盗刷的信用卡均只在美团和其他少数几个平台进行过绑定,因此疑似与此次美团数据泄露事件有直接关联。

目前已知的认证网关包括 STEIN INC(Weston, US)、Airtech Inc、GenZ Inc 等。已绑定这些外卡的用户遭遇了不同程度的盗刷。

根据多方反馈,目前国内使用快捷支付的用户暂未发现被盗刷的情况。使用手机支付、银行快速绑卡或银联通道(包括境外银联)的用户暂时不受此次事件影响。

截至发稿,美团方面没有发表任何声明;本频暂时无法对此消息进行独立验证。

——————

疑似美团内部人士透露,「(美团)不以任何方式记录和存储用户外卡CVV等敏感信息,不具备网络传言所称泄露用户CVV等敏感信息的条件」。
上交所股票竞价交易出现异常,指数更新缓慢

据反馈,9 月 27 日上午十点左右,上交所交易系统开始出现宕机,疑似交易过多,指数更新缓慢。

中午 11 时,上交所发布公告称,今日开盘后本所股票竞价交易出现成交确认缓慢的异常。

公告发出约 15 分钟后,上交所交易陆续恢复正常。

市场人士分析指出,这可能是订单拥挤引发 “塞单”,在历史上,其它交易所也发生类似的交易异常。具体表现是订单回报出现延迟,交易者长时间不清楚已报委托的状态。交易者不断撤单并重新申报,导致券商到交易所的流量迅速激增并积压。

南方+
一个小站的自留地
本频从多个信源观察到,近期对于OpenAI (通过 Azure)和 Claude(通过 AWS 或 GCP Vertex AI)渠道的滥用正日益泛滥。 由于微软正式发布 Azure AI Studio 后开放了 OpenAI 模型的流式输出(或称「打字机模式」),现在 API 转发商使用 Azure 转发的 API 与官方已无二异。 而 AWS 平台由于账号可采用预付费模式,加上对 Claude-3.5 Sonnet 模型的宽松开放政策,使得 API 转发商可以以非常低的边际成本盈利。 目前,使用 Azure…
本频从多个信源观察到,OpenAI 的风控政策正在近期进一步升级。

对于部分长期使用网关登录的账号(如部分合租面板、逆向号池),OpenAI 强制更改了密码,要求开启两步验证。

对于部分长期使用非家宽节点登录的账户,OpenAI 会在不通知用户的情况下更改模型为较低智能的 gpt-4o-mini,表现为无法调用任何工具,如使用记忆、联网、生图等。用户上传文件或图片后,OpenAI 会自动将该对话交由 gpt-4o 处理。并正常消耗配额。全程完全为黑箱操作,用户侧无提示。付费用户也可能受到影响。

对于部分有风险的 IP,OpenAI 禁用了免登录使用 ChatGPT 对话。
一个小站的自留地
据信是 Llama 3-405B 的模型以及基准测试成绩已经被泄露。 网友整理的模型下载地址: https://x.com/kimmonismus/status/1815314833236984274 从泄露的基准测试成绩来看,Llama 3-405B 模型在大多数方面优于 GPT-4o,这一结果或侧面表面 GPT-4o 模型蒸馏后的模型参数小于这一量级。 据新智元报道,除了最大的405B,Meta这次还升级了5月初发布的8B和70B模型,并将上下文长度全部提升到了128K。 至此,模型版本也正式从Llama…
Meta 发布 Llama 3.2

北京时间2024 年 9 月 26 日凌晨,Meta 发布 Llama 3.2。


本次发布,包含 4 种尺寸的模型,包括 1B、3B、11B 和 90B,以及一些硬件:一款新的雷朋 AI 眼镜 和 Meta Quest 3S:

1B/3B:旨在提供边缘算力,也就是可以在如移动设备上运行,目前已支持Arm、高通(Qualcomm)和联发科(MediaTek)

11B/90B:具备多模态能力,并可直接替代 Llama 3.1 8B 和 70B。

Llama Stack: 开发套件,帮助快速构建、部署 AI 应用。雷朋眼镜:支持车位助记、实时翻译、多模态问答等功能。

Meta Quest 3S:最新的 VR 玩具,299.99 美金

(赛博禅心)
一个小站的自留地
谷歌发布三款 Gemini 实验 AI 模型,1.5 Pro 冲榜第二 2024 年 8 月 28 日,谷歌 AI Studio 产品总监 Logan Kilpatrick 在 X 平台宣布推出三款实验性 Gemini 模型: - Gemini 1.5 Flash-8B:这是 Gemini 1.5 Flash 的精简版本,拥有 80 亿参数,专为多模态任务设计,包括大容量任务和长文本摘要。 - Gemini 1.5 Pro Exp-0827:该模型主要增强编程和复杂提示词功能,现已通过 Google AI…
谷歌更新 Gemini 1.5 系列模型,性能大幅提升,价格降低 50%

2024 年 9 月 25 日,谷歌发布了两款升级后的生产就绪版本的 Gemini 1.5 模型:Gemini-1.5-Pro-002Gemini-1.5-Flash-002。这些新模型在原有 Gemini 1.5 模型基础上进行了显著改进,并将 API 价格下调了 50%。

新款 Gemini 1.5 Pro-002 和 Flash-002 模型在多个方面表现出色:
- MMLU-Pro 基准测试提高 7%
- 数学能力大幅提升,MATH 和 HiddenMath 测试成绩提高 20%
- 视觉和代码任务性能提升 2-7%

谷歌宣布输入词元 (Token) 价格降低 64%;输出词元价格降低 52%。在128K词元以内的任务中,增量缓存词元价格降低64%,自2024年10月1日起生效。

此外,谷歌还提高了速率限制。付费级别中,1.5 Flash 达到2000 RPM,1.5 Pro 达到1000 RPM。
一个小站的自留地
代码泄露 OpenAI 或将于 9 月 24 日推出 ChatGPT AI 高级语音模式 TestingCatalog 报道,根据最近的代码泄露,ChatGPT 的高级语音模式将在 9 月 24 日面向更广泛的用户推出,并且可能是直接正式发布。 适用于 macOS 的 ChatGPT 应用程序也有了一些新的变化,语音模式 UI 中,代表 ChatGPT 语音模式的黑色图标已经被替换为随语音播放而动的天空动画。 目前,ChatGPT 高级语音模式仅向一小部份 ChatGPT Plus 用户开放。 (爱范儿)
OpenAI 推出高级语音模式,ChatGPT 语音交互能力大幅提升

据 OpenAI 官方宣布,ChatGPT 应用的「高级语音模式」(Advanced Voice Mode, AVM)正在逐步向更多付费用户开放。

OpenAI 表示,AVM 将在一周内逐步向所有 Plus 和 Team 用户推送。同时,还增加了以下功能:

- 「自定义指令」功能
- 记忆功能
- 五种新语音
- 改进的口音支持
- 支持超过 50 种语言

同时,自 AVM 的有限 alpha 测试发布以来,OpenAI 进行了多项改进:
- 对口音的理解能力更强
- 对话更加顺畅和迅速
- 扩展了部分定制功能到 AVM

ChatGPT 现在共有九种语音供用户选择:Arbor、Maple、Sol、Spruce、Vale、Breeze、Juniper、Cove 和 Ember。
「自定义指令」功能允许用户个性化 ChatGPT 的响应方式;「记忆功能」则使 ChatGPT 能够记住之前的对话以供后续参考。
一个小站的自留地
快手「可灵」:可能是「中国版Sora」 在快手13周年庆典上,快手毫无预兆地发布了AI视频大模型「可灵」。 「可灵」支持生成最长2分钟、30fps的1080P视频,从头脑风暴到可发布作品的一键转化功能,让全球用户大为震撼。其生成效果不仅超越了Sora,还引发了硅谷创投圈的热议。Stability AI前CEO Emad Mostaque称赞中国AI技术有其独特优势,YC CEO也在X平台转发了可灵生成的视频示例。 「可灵」成为国内首个文生视频产品级应用,不论是在生成视频的连续性、真实度和清晰度方面,…
字节跳动发布豆包视频生成大模型 PixelDance 和 Seaweed,AI 视频创作迎来新突破

2024 年 9 月 24 日,字节跳动在火山引擎的「AI 创新巡展」活动上正式发布了两款 AI 视频生成大模型——豆包视频生成-PixelDance 和豆包视频生成-Seaweed。

豆包视频生成大模型的最大亮点在于其对复杂指令的精准理解以及自然连贯的多主体互动能力。与传统的视频生成模型相比,这两款模型能够在不同镜头下保持人物样貌、服装细节以及头饰的一致性,接近实拍效果。尤其是在多主体、多动作交互场景中,表现尤为出色。

PixelDance 擅长复杂动作与高动态场景
•复杂动作与高动态表现:能够呈现丰富的人物动作、面部表情以及相机视角控制,适合视觉冲击力强烈的场景,如动画制作、影视特效和创意广告等。
•潜在扩散架构:采用潜在扩散架构进行训练,结合图像指令(针对视频片段的首尾帧)和文本指令,使其能够更好地理解和学习视频中的动态信息。

Seaweed 注重细腻细节与逼真度
•逼真度与细腻细节:在生成具备丰富细节层次的视频方面表现出色,特别适合需要高质量视觉呈现的场景。
•多种风格与分辨率支持:支持横屏、竖屏及多分辨率输出,并根据用户输入的高清图像进行适配和保真,默认输出为 720p 分辨率、24fps,可延长至 20-30 秒。
一个小站的自留地
新款 iPhone 开售后,各渠道仍保持一定溢价。 从9.23的渠道价可以看出,Pro 系列中白色入门版最受追捧,更高的型号中,消费者却普遍偏向原色和黑色,而蓝色最不受欢迎。 数字系列产品中,黄色最不受欢迎。 另据拼多多相关产品评论区,百亿补贴的iPhone 15 Pro中,目前只有蓝色发出。 本代产品由于功耗发热等问题,其实存在一定硬伤。 个人觉得真要买的话可以继续观望,完全没必要溢价入。 最后,华为发布会明天下午就开,咱们拭目以待。
iPhone 16 全系列开售,电商渠道已有大量现货供应,渠道溢价较去年有下降。

本频信源提供的渠道售价显示,今年度最受欢迎的颜色是 Pro 系列的白色钛金属,其余所有配色目前渠道价均无明显差异。

Pro 系列当前现货溢价 600元左右,标准版则溢价 400 元左右。

电商渠道方面,京东大部分地区已经可以实现当日达,拼多多则为 Pro 系列提供了 400 元的补贴,标准版补贴价格达到 600-1000 元不等。但发货日期显示为未来两周。

港行方面,目前香港本地回收价差异较大,高配溢价最多,Pro 系列白色反而溢价较少。本频信源在20 日同天报告了两个截然不同的回收行情,对于各个低配版,香港当地回收价跌破原价近 600 元,而最抢手的 iPhone 16 Pro Max 沙漠钛配色,当地回收价最高溢价近 2000 元。

——————

据《深网》,在内地手机二级市场,目前iPhone 16和iPhone 16 Plus很少有用户询价。iPhone 16 Pro,比较抢手的型号例如钛金属原色512GB版本,钛金属白256GB、512GB、1TB版本、钛金属黑色1TB可能会有用户愿意溢价购买。目前仅iPhone16 Pro Max有800至1200元的溢价。

与去年相比,今年苹果对iPhone16系列实施严格的控货控价措施。

为避免出现iPhone15和iPhone15 Plus破发(跌破官网价)情况出现,苹果今年对新款首销实施分货制,天音控股等苹果国内核心代理商对渠道控货,窜货会被罚款。
一个小站的自留地
据@数字生命卡兹克, ChatGPT Pro会员灰度上线,售价200刀/月,疑似为全新的模型,草莓(Strawberry)准备。 The Information 也在昨天报道,OpenAI 的新「草莓」模型可能会在两周内上线。 这一模型通过延长思考时间获得更强的推理能力,智能达到 GPT-4.5 级别,可能会成为 OpenAI 自 GPT-4 发布后的「下一代旗舰」。 主要的中文科技媒体均援引The Information 报道了本条新闻,但本频暂时无法独立对此进行验证。
代码泄露 OpenAI 或将于 9 月 24 日推出 ChatGPT AI 高级语音模式

TestingCatalog 报道,根据最近的代码泄露,ChatGPT 的高级语音模式将在 9 月 24 日面向更广泛的用户推出,并且可能是直接正式发布。

适用于 macOS 的 ChatGPT 应用程序也有了一些新的变化,语音模式 UI 中,代表 ChatGPT 语音模式的黑色图标已经被替换为随语音播放而动的天空动画。

目前,ChatGPT 高级语音模式仅向一小部份 ChatGPT Plus 用户开放。

(爱范儿)
一个小站的自留地
通义千问 Qwen2 系列模型开源 中国时间 6 月 7 日 0 点,通义千问宣布 Qwen2 系列模型开源,包括 0.5B、1.5B、7B、57B-A14B (使用 Apache 2.0 协议)和 72B (使用 Qianwen License 协议)等多个版本。 技术参数方面,Qwen2 系列模型在各个尺寸都使用了 GQA (Generalized Query Attention),并且除了中英文外,还使用了其他 27 种语言的训练数据。具体上下文处理能力如下: · 72B 和 7B 版本可处理…
阿里通义发布 Qwen2.5 系列开源大模型

2024 年 9 月 19 日,阿里巴巴通义实验室正式发布了全新的 Qwen2.5 大模型系列,标志着全球开源大模型领域的又一次重大突破。据量子位报道,Qwen2.5 凭借其强大的性能和创新特性,在多个任务上超越了 Meta 的 Llama3-405B,成为目前开源大模型中的佼佼者。

本次发布的基础模型包括:
• Qwen2.5:0.5B、1.5B、3B、7B、14B、32B 和 72B
• Qwen2.5-Coder:1.5B、7B 和 32B(即将推出)
• Qwen2.5-Math:1.5B、7B 和 72B

Qwen2.5 系列不仅在参数灵活性上有所突破,还在多个任务上展现出卓越表现。据量子位报道,Qwen2.5-32B 的性能已经超过了上一代的 Qwen2-72B,而 Qwen2.5-14B 则胜过了 Qwen2-57B-A14B。

此外,本次发布的多个模型支持最大 128K 的上下文长度,这使得它们在长文本生成和结构化数据处理(如表格理解与生成 JSON 输出)等任务中具备显著优势。
一个小站的自留地
DeepSeek 旗下最新旗舰模型 DeepSeek-V2.5-0905 宣布开源。这一模型有望成为最强开源模型的有力竞争者。 DeepSeek-V2.5 (236B) 现已开源到了 HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V2.5 DeepSeek-V2.5 不仅保留了原有 Chat 模型的通用对话能力和 Coder 模型的强大代码处理能力,还更好地对齐了人类偏好。 此外,DeepSeek-V2.5 在写作任务、指令跟随等多个…
DeepSeek-V2.5 领跑国内大模型:刷新多项国产记录

DeepSeek-AI 团队于 9 月初发布并开源了全新模型 DeepSeek-V2.5,近日在 LMSYS 组织的全球大模型竞技场(ChatBotArena)中表现出色,刷新了国产模型的多项历史纪录。

在最新公布的 ChatBotArena 排名中,DeepSeek-V2.5 位列国内大模型第一,成功超越 Yi-Large-Preview、Qwen-Plus-0828 和 GLM-4-0520 等国内最强闭源模型,并在 8 个单项能力上均领跑国内模型。这一成绩标志着 DeepSeek-V2.5 成为目前国内开源模型中的佼佼者。

在 ChatBotArena 的分项排名中,DeepSeek-V2.5 在多个维度上取得了国产模型历史最佳成绩:

- 难问题(Hard Prompt):世界第二(国内历史最佳)
- 代码(Code):世界第二(国内历史最佳)
- 数学(Math):世界第三(国内历史最佳)

DeepSeek
#停机维护 #计划

接上游服务商通知,一个小站的亚洲区域后端服务器将于 10月4日-6日 进行设备维护,期间可能造成某时段长达4-8小时的间歇停机。

一个小站的博客将在此期间不可用。
一个小站的API商店在此期间将不可用。
一个小站的公益服务、网盘分发等服务将维持正常运行。

本站仍未得到服务商关于此次维护的确切时间窗口。
#Update #OpenAI

OpenAI 现已提高了 o1-preview 和 o1-mini 在 ChatGPT 订阅中的配额:

- o1-preview:每周 50 次
- o1-mini:每日 50 次

API 调用频率也相应提升:

- o1-preview:100 RPM
- o1-mini:250 RPM

但 API 仍然限制到 Tier 5。
115 网盘称服务器遭恶意攻击,网盘服务一度中断

2024 年 9 月 16 日,广东一一五科技股份有限公司(以下简称「115 科技」)发布紧急声明,称公司服务器遭到恶意网络攻击,导致包括 115 生活(前称「115 网盘」)在内的多项产品服务出现登录故障。

据 115 科技官方声明,公司技术团队已在第一时间展开紧急修复工作,相关问题将在修复完成后及时告知用户。针对网络上流传的「115 网盘终止服务」等不实消息,115 科技特别澄清,这些言论均为谣言。

115 科技

本频信源向 115 方面查证后表示,此次 115 网盘中断为 115 方面线上故障导致,与阿里云和台风均无关。
一个小站的自留地
据@数字生命卡兹克, ChatGPT Pro会员灰度上线,售价200刀/月,疑似为全新的模型,草莓(Strawberry)准备。 The Information 也在昨天报道,OpenAI 的新「草莓」模型可能会在两周内上线。 这一模型通过延长思考时间获得更强的推理能力,智能达到 GPT-4.5 级别,可能会成为 OpenAI 自 GPT-4 发布后的「下一代旗舰」。 主要的中文科技媒体均援引The Information 报道了本条新闻,但本频暂时无法独立对此进行验证。
OpenAI 推出新模型 o1:推理能力大幅提升

北京时间 9 月 13 日凌晨,OpenAI 发布了全新的推理模型系列——o1 系列。该系列包含两个版本:o1-preview 和 o1-mini,分别面向不同的用户群体。据 OpenAI 官方消息,o1 系列在复杂推理任务上的表现显著提升,尤其是在科学、编程和数学等领域。为了彰显这一突破性进展,OpenAI 将计数器重置为 1,并将该系列命名为 o1。

o1 系列的推理能力远超此前的 GPT-4o 模型。例如,在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅能解答 13% 的问题,而 o1-preview 模型则正确解答了 83%。此外,在 Codeforces 编程竞赛中,o1 模型达到了第 89 百分位的成绩。OpenAI 强调,o1 是其首个通过强化学习训练的大语言模型,通过「思维链」(Chain of Thought)技术,该模型能够进行更深入、更系统的推理。

ChatGPT Plus 和 Team 用户可以立即使用 o1-preview 和 o1-mini,而企业用户和教育用户将在下周获得访问权限。据 OpenAI 官方公告,对于 API 用户,消费超过 1,000 美元且自首次付款以来已超过 30 天的开发者,从即日起可以使用这两款模型,但速率限制为每分钟 20 个请求。此外,OpenAI 计划未来向所有 ChatGPT 免费用户开放 o1-mini 的使用权

与 GPT-4o 相比,o1-preview 的 API 使用成本明显提高。据 OpenAI 公布的数据,o1-preview 每百万输入词元(Token)收费为 15 美元,每百万输出词元收费则高达 60 美元,而 GPT-4o 的相应价格仅为输入 5 美元/百万词元、输出 15 美元/百万词元。尽管价格不菲,但 OpenAI 坚称其推理能力有了质的飞跃,尤其是在需要复杂逻辑分析和多步骤推理的任务中表现尤为突出

OpenAI API 产品负责人 Michelle Pokrass 在社交媒体上表示:「如果你曾经有一个产品创意,但当时的模型还不够智能,不妨再试试这些新模型。」

根据 OpenAI 总裁 Greg Brockman 的说法,o1 是第一个通过强化学习训练的模型,它能够「深入思考」后再回答问题。他进一步解释道,这一技术突破不仅显著提升了推理指标,还让 AI 的思维过程更加透明化。「通过『思维链』技术,模型从『系统 I』思考进化到『系统 II』思考,即逐步构建更复杂的问题解决方案。」

据 OpenAI 官方介绍,o1 系列依赖于强化学习技术来提升其推理能力。在生成最终答案之前,该模型会经历长链条式的逻辑分析和内部思考过程。这种方式使得它在处理复杂问题时更加可靠。例如,在 GPQA 基准测试中,该模型成功超越了人类博士生水平;而在数学和编程领域,其表现尤为亮眼。在今年举行的国际信息学奥林匹克竞赛(IOI)中,经微调后的 o1 模型在每题尝试 50 次条件下获得了 213 分,跻身参赛者前 49%。

除了旗舰版 o1-preview 外,本次发布还包括一个更快且成本更低的小型版本——o1-mini。据介绍,该版本特别适合那些需要强大推理能力但不依赖广泛世界知识的任务场景,例如编程和数据分析任务。相比于 o1-preview 的高昂定价,o1-mini 的成本降低了约 80%,但其核心推理能力依然十分强大。

(综合媒体报道)
Back to Top