起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/ygxz_group
一个小站的自留地
5 月9日,阿里云召开峰会,正式发布通义千问2.5,模型性能全面赶超GPT-4-Turbo,成为“地表最强”中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。 (券商中国) 另据 SuperCLUE 的测评结果,通义千问2.5取得总分74.93分,与GPT-4 Turbo仍有一定差距,相差5.21分。其他如编码和数学能力也有差距,但值得一提的是数学能力位居国内大模型第一。
商汤「日日新5.0」中文基准测评出炉,总分80.03刷新最好成绩,文科能力领跑

在SuperCLUE综合基准上,SenseChat V5表现不俗,以总分80.03分的优异成绩刷新国内最好成绩(通义千问2.5取得总分74.93分 ,GPT-4o得分为81.73),并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分。

在本次测评中,理科任务上SenseChat V5取得国内最好成绩,较GPT-4-Turbo-0125低4.35分,还有一定提升空间;文科任务上SenseChat V5表现十分出色,以82.20分取得国内外最高分。

(SuperCLUE)
国产大模型价格战时间线

5月6日
DeepSeek官网推出“高性价比”大模型DeepSeek-V2,将价格降至每百万词元输入1元、输出2元(32K上下文)。该模型能力对标GPT-4和llama 3-70B,价格仅为GPT-4的近1%。开发者登录DeepSeek开放平台送500万词元。

5月11日
智谱AI调整旗下入门级大模型GLM-3-Turbo(上下文长度128k)的价格,从0.005元/千词元降低到0.001元/千词元。此外,开放平台新注册用户获赠从500万词元提升至2500万词元(包含2000万GLM3-Turbo和500万GLM4)。GLM-3 Turbo Batch批处理API进一步降价50%,至0.0005元/千词元,即1元可处理200万词元。

5月15日
在火山引擎原力大会上,火山引擎总裁谭待宣布豆包主力模型在企业市场的定价为0.0008元/千词元,即0.8厘可处理1500多个汉字,比行业便宜99.3%。

5月21日
阿里云宣布通义千问全系降价,最高降幅达97%。通义千问商业化模型和开源模型降价,以跟进国产大模型降价潮。

同日,百度宣布旗下ERNIE Speed和ERNIE Lite模型「全面免费,立即生效」,但旗舰模型定价保持不变。

5月22日
科大讯飞宣布讯飞星火API能力正式免费开放。其中,讯飞星火Lite API永久免费开放,讯飞星火顶配版(Spark3.5 Max)API价格低至0.21元/万词元。

同日,腾讯宣布其开发的混元-lite模型全面免费。

——————

至此,国内大模型厂商的降价潮已覆盖几乎所有主流大模型的基本版。

有评论指出,当国产大模型纷纷迈入「百万词元一元钱」的门槛后,意味着这些模型功能上逐渐成熟,但价格的急剧下降可能会导致行业内的「清场」,小玩家逐渐被淘汰。随着成本的下降,相关应用会迅速兴起并普及。降价潮过后,将进入国产大模型的下半场。

然而,也有观点认为,这场价格战看似降低了小规模开发测试的成本,但实际上却隐藏了高并发资源的额外费用,生产级的真实成本并未下降。价格战的背后更多是为了市场份额和眼球效应,而非真正的技术进步。
一个小站的自留地
SuperCLUE 公布了GPT-4o 的中文能力评测结果: - 在完成SuperCLUE推理任务时,GPT-4o的整体得分为81.73,超过GPT-4 Turbo成为中文推理任务最强模型。 - GPT-4o在SC-Math6数学基准上得分91.77分,较GPT-4 Turbo提升1.06分,登顶SC-Math6榜首,判定为推理等级5。 - GPT-4o在SC-Code3代码基准上得分71.68分,较GPT-4 Turbo提升2.11分,刷新SC-Code3最好成绩。 (SuperCLUE)
OpenAI发布GPT-4o后,一些中文用户发现其标记中充斥着垃圾信息和色情短语

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。
大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。
这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。
目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。

(MIT科技评论)(竹新社)
一个小站的自留地
OpenAI春季更新:大戏到来前的半代升级 1. 发布ChatGPT新UI,界面更加圆润和易用。 2. 推出GPT-4o模型,在文本、语音、视频三个方面有重大升级,足以颠覆多个行业: - 文本方面达到GPT-4级别,向所有人开放。 - 语音功能可以随时打断对话、声音实时自然,能生成切合场景的音调。 - 视频功能可以进行视频对话,比如在线解题,反应自然。 3. 推出桌面版ChatGPT应用,通过快捷键即可快速使用。可以直接讨论应用内的屏幕截图。 4. 开放GPT-4o的API,相比GPT-4 turbo…
谷歌 I/O 2024发布会:用AI突袭OpenAI

1. Gemini 1.5 Pro模型上下文长度提升至200万token,为目前最长,可处理2小时视频、22小时音频或超60,000行代码。

2. 推出轻量级Gemini 1.5 Flash模型,更便宜更快,同样支持100万token长上下文和多模态输入。价格仅为GPT-4的二十分之一。

3. 谷歌搜索引入AI Overviews功能,在搜索结果顶端提供AI生成的全面答案总结。已向美国用户开放。

4. 发布全新AI智能助理Astra,效果不输GPT-4o,可通过摄像头识别物体、代码等,并进行语音交互。展示了配合AR眼镜使用的强大效果。

5. 推出文生视频模型Veo,可生成1080p、超60秒长度的高质量视频,打破GPT-4的Sora的多项纪录。

6. 升级Imagen图像生成模型至第三代,细节更丰富,理解能力更强。Music AI Sandbox可协助音乐创作。

7. 第六代TPU芯片Trillium发布,算力比上一代提升4.7倍。Gemini将广泛应用于谷歌生态各个产品和服务中。
一个小站的自留地
OpenAI春季更新:大戏到来前的半代升级 1. 发布ChatGPT新UI,界面更加圆润和易用。 2. 推出GPT-4o模型,在文本、语音、视频三个方面有重大升级,足以颠覆多个行业: - 文本方面达到GPT-4级别,向所有人开放。 - 语音功能可以随时打断对话、声音实时自然,能生成切合场景的音调。 - 视频功能可以进行视频对话,比如在线解题,反应自然。 3. 推出桌面版ChatGPT应用,通过快捷键即可快速使用。可以直接讨论应用内的屏幕截图。 4. 开放GPT-4o的API,相比GPT-4 turbo…
SuperCLUE 公布了GPT-4o 的中文能力评测结果:

- 在完成SuperCLUE推理任务时,GPT-4o的整体得分为81.73,超过GPT-4 Turbo成为中文推理任务最强模型。

- GPT-4o在SC-Math6数学基准上得分91.77分,较GPT-4 Turbo提升1.06分,登顶SC-Math6榜首,判定为推理等级5。

- GPT-4o在SC-Code3代码基准上得分71.68分,较GPT-4 Turbo提升2.11分,刷新SC-Code3最好成绩。

(SuperCLUE)
一个小站的自留地
OpenAI春季更新:大戏到来前的半代升级 1. 发布ChatGPT新UI,界面更加圆润和易用。 2. 推出GPT-4o模型,在文本、语音、视频三个方面有重大升级,足以颠覆多个行业: - 文本方面达到GPT-4级别,向所有人开放。 - 语音功能可以随时打断对话、声音实时自然,能生成切合场景的音调。 - 视频功能可以进行视频对话,比如在线解题,反应自然。 3. 推出桌面版ChatGPT应用,通过快捷键即可快速使用。可以直接讨论应用内的屏幕截图。 4. 开放GPT-4o的API,相比GPT-4 turbo…
OpenAI 在昨晚线上直播了 Spring Update(春季更新),时间不仅故意选在对家谷歌年度 I/O 大会的前一天,而且早在发布会前就通过放料+辟谣的连环操作吊足了各路媒体和网友的胃口。

本次发布会可以说非常具有工科人的那种直率气质,在一开始就把整场发布会的要点放在了身后的 Slides 上,也就是号称「人人都能用上」的「GPT-4o」模型。

GPT-4o是OpenAI继GPT-4后推出的全新基础模型,其中o代表omni,即"全能"的意思,体现了模型在多模态等方面的全面升级。

GPT-4o最大的亮点是支持多模态输入输出,能够接受和生成文本、语音、图像的任意组合,使人机交互更加自然流畅。语音响应速度大幅提升,可在232毫秒内给出回应,接近人类水平。

性能方面,GPT-4o在英语文本和编程方面与GPT-4 turbo相当,但在非英语文本、视觉、语音理解等方面有显著提升。同时推理速度更快,API价格降低50%。

在多个基准测试中,GPT-4o刷新了之前模型的最好成绩。如在MMLU(语言理解能力评测)上得分88.7,为综合模型最高分;在MATH数学推理上较此前最好模型(Claude3-Opus)提升27.5%;在HumanEval编程评测中达90.5分,也是最高水平。

在发布会中,OpenAI表示,希望把最强大的AI工具免费提供给所有人使用,未来每个人或将拥有像GPT-7这样的AI算力。
OpenAI春季更新:大戏到来前的半代升级

1. 发布ChatGPT新UI,界面更加圆润和易用。

2. 推出GPT-4o模型,在文本、语音、视频三个方面有重大升级,足以颠覆多个行业:

- 文本方面达到GPT-4级别,向所有人开放。
- 语音功能可以随时打断对话、声音实时自然,能生成切合场景的音调。
- 视频功能可以进行视频对话,比如在线解题,反应自然。

3. 推出桌面版ChatGPT应用,通过快捷键即可快速使用。可以直接讨论应用内的屏幕截图。

4. 开放GPT-4o的API,相比GPT-4 turbo,速度提升2倍、价格降低一半、访问限制提高5倍。

5. 免费用户也可以使用GPT-4级别的ChatGPT,但消息限制是付费用户的1/5。付费用户享有更多高级功能。

6. OpenAI希望把最强大的AI工具免费提供给所有人使用,未来每个人或将拥有像GPT-7这样的AI算力。

可信度:A
一个小站的自留地
而同样是在 5月13日,国内公司 01.AI (零一万物)将在Hugging Face平台上发布专有模型 Yi-Large。据称内测效果「十分惊艳」。
据 SuperCLUE,Yi-Large表现不俗,以总分74.29分跻身国内大模型第一梯队。(国内第一暂时为通义千问2.5的74.93分,但不开源)

在本次测评中,相比国外代表性模型很有竞争力。总体来看,Yi-Large表现好于Llama3-70B,与Claude3-Opus打平,相比GPT4 Turbo相差4.84分,还有一定提升空间。

Yi-Large在各项能力上表现均衡,尤其在计算、代码、知识百科和语言理解能力上处于国内领先位置,适用于数理运算、编程助手、知识运用及文本处理等应用场景。安全能力还有一定提升空间。

(SuperCLUE)
一个小站的自留地
另据本频信源,OpenAI 与微软近期确实可能有一次大规模面向公众的产品发布,而且大概率与现有 ChatGPT 产品无关。这很有可能是上文媒体提到的搜索产品。
据新智元综合网友爆料,所谓「搜索产品」是OpenAI投出的诱饵,目的是揪出内部泄密者。而经常给Jimmy Apples、Flowers泄密的爆料人,已经被OpenAI解雇。

而 Information 则报道称,OpenAI正在开发一个全能的AI语音助手,预计在下周展示。这项新技术可以通过声音和文本,与人交流,可以听出不同人的语调、语气,并能识别物体和图像。
一个小站的自留地
据路透社,OpenAI可能会安排在谷歌年度 I/O 大会的前一天(周一)发布搜索产品。 届时 Google 预计也将推出一系列与人工智能相关的产品。 via https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/
OpenAI宣布,将于美国时间5月13日上午10点(北京时间5月14日凌晨1点),在其官网上直播,并展示最新的ChatGPT及GPT-4相关更新。

而同样是在 5月13日,国内公司 01.AI (零一万物)将在Hugging Face平台上发布专有模型 Yi-Large。据称内测效果「十分惊艳」。

与此同时,OpenAI 首席执行官山姆·阿特曼驳斥了路透社的一篇报道,报道称 OpenAI 将于下周一推出一款搜索产品。

阿特曼在 X 上发帖称,虽然 OpenAI 定于周一早上发布公告,但“不是 GPT-5,不是搜索引擎”,但无论它是什么,他说它“感觉就像魔术一样”。OpenAI 官方帖子提供的唯一细节是,此次发布将更新 ChatGPT 及其最新模型 GPT-4。
一个小站的自留地
阿里正式开源1100亿参数Qwen1.5-110B模型 Qwen1.5-110B模型是截止目前为止国内开源模型中参数规模最大的模型。Qwen1.5-110B模型与其它Qwen1.5系列模型架构一致。采用了分组查询注意力机制,因此推理效率很高。该模型最高支持32K上下文,并且支持多语言。 根据官方公布的评测结果,Qwen1.5-110B模型的评测结果略超过Llama-3-70B和Mixtral-8×22B,是除了Llama3-70B-Instruct模型外最强的开源模型。 国内此前开源领域最大的参数模…
5 月9日,阿里云召开峰会,正式发布通义千问2.5,模型性能全面赶超GPT-4-Turbo,成为“地表最强”中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。

(券商中国)

另据 SuperCLUE 的测评结果,通义千问2.5取得总分74.93分,与GPT-4 Turbo仍有一定差距,相差5.21分。其他如编码和数学能力也有差距,但值得一提的是数学能力位居国内大模型第一。
一个小站的自留地
OpenAI 近期动作频频,新搜索产品最快于 5 月 9 日推出,GPT-5 可能于 6 月推出 OpenAI 近期对其官网进行了更新,同时也有网友发现,OpenAI 的域名出现了五十余个新的子域名,其中最受关注的是 search.chatgpt.com 。 据报道, OpenAI 一直在开发一款网络搜索产品,这将加剧与Google的竞争。该搜索服务将部分由 Bing 提供支持。 据外电援引消息人士Jimmy Apples透露, OpenAI 可能很快就会推出一款新的搜索引擎,并表示该公司计划在本月举办一场活动,暂定于…
首先,搜索还是 Bing 提供的,但也能感觉到确实比以前快了。

对于他不知道的信息,比如苹果发布会,真的有去联网。

不过,对于非常实时的信息,依然不能很好处理,如比特币价格。

在联网后,多语言上处理上依然有问题,比如在 YC News 中,并没有按中文来回复。

同时的,考虑到还在灰度。等全量上线后,可能会不同。


(赛博禅心)
OpenAI 近期动作频频,新搜索产品最快于 5 月 9 日推出,GPT-5 可能于 6 月推出

OpenAI 近期对其官网进行了更新,同时也有网友发现,OpenAI 的域名出现了五十余个新的子域名,其中最受关注的是 search.chatgpt.com

据报道, OpenAI 一直在开发一款网络搜索产品,这将加剧与Google的竞争。该搜索服务将部分由 Bing 提供支持。

据外电援引消息人士Jimmy Apples透露, OpenAI 可能很快就会推出一款新的搜索引擎,并表示该公司计划在本月举办一场活动,暂定于 2024 年 5 月 9 日上午 10 点 。知情人士还透露,OpenAI 从 1 月初开始就在招聘活动团队,负责组织内部活动。

另据本频信源,OpenAI 与微软近期确实可能有一次大规模面向公众的产品发布,而且大概率与现有 ChatGPT 产品无关。这很有可能是上文媒体提到的搜索产品。

——————
可信度:B


src:https://www.cnbeta.com.tw/articles/tech/1429477.htm#google_vignette
疑似是 OpenAI 新模型的未知模型出现在大模型竞技场 LMSYS 上

一个名为 gpt2-chatbot 的大模型于不久前出现在大模型竞技场 LMSYS 上,尽管基准测试分数不被公开,但根据网友的实测,其性能超过目前市面上的所有大语言模型。

通过提示词引导和基于 token 分词器的研究发现, gpt2-chatbot 非常有可能来自 OpenAI,且应该是 GPT-4 的一个改进版本。其在逻辑能力、代码能力和数学能力上具有当今其他任何大模型无法比拟的能力。

似乎很有可能,这个神秘模型实际上是GPT-4.5,作为另一个"渐进式"模型更新的实例发布,而GPT-5则是一个可能性较小的选择。

输出的整体质量——特别是其格式、结构和整体理解能力——绝对是一流的。

多位在LLM提示和聊天机器人方面经验丰富的人士(在公开和私下场合)都注意到输出质量出乎意料地好,我完全同意这一点。对我来说,感觉就像是从GPT-3.5到GPT-4的飞跃,但这次是以GPT-4作为起点。

该模型的结构化回复似乎受到了修改后的CoT(思维链)等技术的强烈影响。

目前没有充分的理由相信这个神秘模型使用了某种全新的架构。


网友同样给出了另外一种可能,即 gpt2-chatbot 有可能是 LMSYS 将多个大模型以类似 MoE 的方式整合的结果,但从各种迹象来看,该假设的可能性较小。

此前,OpenAI 为大量用户推送了 ChatGPT 的记忆功能。而由于 GPT-5 的红蓝测试才开始不久,市场普遍预计 OpenAI 在 6 月前都不能拿出足以夺回大模型领域话语权的新模型。

目前, LMSYS 已经删除了该模型,同时更新了使用政策,明确商业公司可能以「匿名发布」的方式将新模型提供给 LMSYS 平台供公众测试, LMSYS 会将反馈结果和一部分样本提供给模型提供方,且模型提供方有随时撤回模型的权利。

——————

有网友通过提示词攻击的方式,在网页版 ChatGPT 的 GPT-4 模型对话时得到了与 gpt2-chatbot 类似的预置 prompt。(即v2 人格)

另据新智元报道,Sam Altman在哈佛大学演讲中,向所有人确认了gpt2-chatbot不是OpenAI下一代的模型。


——————

via:https://rentry.org/GPT2

src:https://mp.weixin.qq.com/s/O3Fl_eUqe8LMkFFCeR74jw
Telegram 的 DC5 离线

用户目前报告连接到 DC5 或与位于 DC5 的用户和对话交互时出现问题。

该数据中心位于新加坡,为亚洲、大洋洲和澳大利亚的用户提供服务。

北京时间 1:30 更新:经过一个半小时的中断后,服务似乎正在重归稳定。

#outages
一个小站的自留地
马斯克旗下大模型公司xAI开源Grok-1 今天凌晨,埃隆·马斯克(Elon Musk)旗下的大模型公司xAI宣布正式开源其3140亿参数的混合专家(Mixture of Experts, MoE)模型「Grok-1」。 Grok-1 的模型细节包括如下: 据机器之心,Grok-1是基于大量文本数据训练的基础模型,该模型的MoE架构在给定token上的激活权重为25%,且从头开始训练,未使用任何特定应用(如对话)进行微调。 根据推特网友Andrew Kean Gao的分析,Grok-1模型的关键特点如下:…
阿里正式开源1100亿参数Qwen1.5-110B模型

Qwen1.5-110B模型是截止目前为止国内开源模型中参数规模最大的模型。Qwen1.5-110B模型与其它Qwen1.5系列模型架构一致。采用了分组查询注意力机制,因此推理效率很高。该模型最高支持32K上下文,并且支持多语言。

根据官方公布的评测结果,Qwen1.5-110B模型的评测结果略超过Llama-3-70B和Mixtral-8×22B,是除了Llama3-70B-Instruct模型外最强的开源模型

国内此前开源领域最大的参数模型是720亿参数规模的Qwen1.5-72B规模和650亿参数的深圳元象科技开源的XVERSE-65B。

(DataLearner)
——————
可信度:A
美国联邦通信委员会(FCC)于2024年4月25日发布命令,指示中国电信、中国联通和中国移动在美国的分公司停止在美国提供固定或移动宽带互联网服务。

作为FCC出于国家安全考虑而采取的更广泛行动的一部分,该指令指出,这些中国电信公司"受到中国政府的剥削、影响和控制"。

FCC的决定要求这些运营商在同日批准的网络中立性命令生效之日起60天内停止服务。

src:
https://www.scmp.com/news/world/united-states-canada/article/3260401/us-federal-communications-commission-bars-chinese-telecoms-carriers-offering-broadband-services

——————
可信度:A
一个小站的自留地
阿里云发布通义千问 2.0 阿里云刚刚在 2023 年云栖大会上正式发布了通义千问 2.0 ,官方表示,「目前通义千问的综合性能已经超过 GPT-3.5,正加速追赶GPT-4」。 该模型目前已在阿里云上可用,无需等候。另外,通义千问 APP 现已经开放体验,新增语音对话功能。 阿里云 CTO 周靖人宣布将在 11 月开源通义千问 720 亿参数模型。周靖人表示,通义千问 72B 将成为参数规模最大的中国开源大模型,继续支持全球开发者开展模型和应用创新。此外,未来阿里云将持续发布更大规模的开源模型。 …
商汤科技23日发布日日新5.0大模型,大部分核心测试集指标已对标或超过GPT-4 Turbo。

据商汤科技,日日新5.0大模型采用了混合专家架构(MoE),训练数据超过10TB tokens,具备200K的推理上下文窗口。

此外,商汤发布会现场还演示了文生图、扩图、多模态、工具调用等能力,也演示了端云结合的较小模型。

4月24日,商汤科技港股股价大涨后,公司公告临时停牌,停牌前涨幅高达31.15%。

官网链接:
chat.sensetime.com

(财联社)
——————
可信度:A
Back to Top