一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

11:24 · 2024年5月21日 · 周二

国产大模型价格战时间线

5月6日
DeepSeek官网推出“高性价比”大模型DeepSeek-V2，将价格降至每百万词元输入1元、输出2元（32K上下文）。该模型能力对标GPT-4和llama 3-70B，价格仅为GPT-4的近1%。开发者登录DeepSeek开放平台送500万词元。

5月11日
智谱AI调整旗下入门级大模型GLM-3-Turbo（上下文长度128k）的价格，从0.005元/千词元降低到0.001元/千词元。此外，开放平台新注册用户获赠从500万词元提升至2500万词元（包含2000万GLM3-Turbo和500万GLM4）。GLM-3 Turbo Batch批处理API进一步降价50%，至0.0005元/千词元，即1元可处理200万词元。

5月15日
在火山引擎原力大会上，火山引擎总裁谭待宣布豆包主力模型在企业市场的定价为0.0008元/千词元，即0.8厘可处理1500多个汉字，比行业便宜99.3%。

5月21日
阿里云宣布通义千问全系降价，最高降幅达97%。通义千问商业化模型和开源模型降价，以跟进国产大模型降价潮。

同日，百度宣布旗下ERNIE Speed和ERNIE Lite模型「全面免费，立即生效」，但旗舰模型定价保持不变。

5月22日
科大讯飞宣布讯飞星火API能力正式免费开放。其中，讯飞星火Lite API永久免费开放，讯飞星火顶配版（Spark3.5 Max）API价格低至0.21元/万词元。

同日，腾讯宣布其开发的混元-lite模型全面免费。

——————

至此，国内大模型厂商的降价潮已覆盖几乎所有主流大模型的基本版。

有评论指出，当国产大模型纷纷迈入「百万词元一元钱」的门槛后，意味着这些模型功能上逐渐成熟，但价格的急剧下降可能会导致行业内的「清场」，小玩家逐渐被淘汰。随着成本的下降，相关应用会迅速兴起并普及。降价潮过后，将进入国产大模型的下半场。

然而，也有观点认为，这场价格战看似降低了小规模开发测试的成本，但实际上却隐藏了高并发资源的额外费用，生产级的真实成本并未下降。价格战的背后更多是为了市场份额和眼球效应，而非真正的技术进步。

15:39 · 2024年5月20日 · 周一

OpenAI发布GPT-4o后，一些中文用户发现其标记中充斥着垃圾信息和色情短语

OpenAI于5月13日发布GPT-4o后，一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐（音）分析了最长的100个中文token，发现大部分与赌博或色情有关，只有少数是常用词。
大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品，但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇，并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。
这些无效数据主要来源于垃圾和色情网站，这些网站通过劫持无关内容来提升搜索引擎排名，从而污染了GPT-4o的训练数据。
目前尚不清楚其他语言是否受影响，但有用户报告韩语token库也有类似问题。

（MIT科技评论）（竹新社）

11:52 · 2024年5月15日 · 周三

完整评论文章已于博客和少数派平台同时发布

博客版：
https://www.ygxz.in/dairy/4338/

少数派版：
https://sspai.com/post/88803

（谷歌的就不写了，不出意外的话下次特别更新会是 WWDC ）

小站背面

【特别更新】OpenAI春季更新：大戏到来前的半代升级

GPT-4o 到底更新了什么？OpenAI 是否保住了自己在大模型领域的绝对话语权？为什么网友看完演示后纷纷感叹「你大爷还是你大爷」？

一个小站在一天的时间里密集阅读了各路媒体、博主、机构以及来自 OpenAI 官方的宣传视频、解读分析和实测体验，本文就来一文讲清堪称「科技界小春晚」的这次OpenAI Spring Update。

08:10 · 2024年5月15日 · 周三

谷歌 I/O 2024发布会：用AI突袭OpenAI

1. Gemini 1.5 Pro模型上下文长度提升至200万token,为目前最长,可处理2小时视频、22小时音频或超60,000行代码。

2. 推出轻量级Gemini 1.5 Flash模型,更便宜更快,同样支持100万token长上下文和多模态输入。价格仅为GPT-4的二十分之一。

3. 谷歌搜索引入AI Overviews功能,在搜索结果顶端提供AI生成的全面答案总结。已向美国用户开放。

4. 发布全新AI智能助理Astra,效果不输GPT-4o,可通过摄像头识别物体、代码等,并进行语音交互。展示了配合AR眼镜使用的强大效果。

5. 推出文生视频模型Veo,可生成1080p、超60秒长度的高质量视频,打破GPT-4的Sora的多项纪录。

6. 升级Imagen图像生成模型至第三代,细节更丰富,理解能力更强。Music AI Sandbox可协助音乐创作。

7. 第六代TPU芯片Trillium发布,算力比上一代提升4.7倍。Gemini将广泛应用于谷歌生态各个产品和服务中。

18:43 · 2024年5月14日 · 周二

SuperCLUE 公布了GPT-4o 的中文能力评测结果：

- 在完成SuperCLUE推理任务时，GPT-4o的整体得分为81.73，超过GPT-4 Turbo成为中文推理任务最强模型。

- GPT-4o在SC-Math6数学基准上得分91.77分，较GPT-4 Turbo提升1.06分，登顶SC-Math6榜首，判定为推理等级5。

- GPT-4o在SC-Code3代码基准上得分71.68分，较GPT-4 Turbo提升2.11分，刷新SC-Code3最好成绩。

（SuperCLUE）

08:16 · 2024年5月14日 · 周二

OpenAI 在昨晚线上直播了 Spring Update（春季更新），时间不仅故意选在对家谷歌年度 I/O 大会的前一天，而且早在发布会前就通过放料+辟谣的连环操作吊足了各路媒体和网友的胃口。

本次发布会可以说非常具有工科人的那种直率气质，在一开始就把整场发布会的要点放在了身后的 Slides 上，也就是号称「人人都能用上」的「GPT-4o」模型。

GPT-4o是OpenAI继GPT-4后推出的全新基础模型,其中o代表omni,即"全能"的意思,体现了模型在多模态等方面的全面升级。

GPT-4o最大的亮点是支持多模态输入输出,能够接受和生成文本、语音、图像的任意组合,使人机交互更加自然流畅。语音响应速度大幅提升,可在232毫秒内给出回应,接近人类水平。

性能方面,GPT-4o在英语文本和编程方面与GPT-4 turbo相当,但在非英语文本、视觉、语音理解等方面有显著提升。同时推理速度更快,API价格降低50%。

在多个基准测试中,GPT-4o刷新了之前模型的最好成绩。如在MMLU（语言理解能力评测）上得分88.7,为综合模型最高分;在MATH数学推理上较此前最好模型（Claude3-Opus）提升27.5%;在HumanEval编程评测中达90.5分,也是最高水平。

在发布会中，OpenAI表示，希望把最强大的AI工具免费提供给所有人使用,未来每个人或将拥有像GPT-7这样的AI算力。

14:06 · 2024年5月13日 · 周一

15:16 · 2024年5月11日 · 周六

09:00 · 2024年5月11日 · 周六

OpenAI宣布，将于美国时间5月13日上午10点（北京时间5月14日凌晨1点），在其官网上直播，并展示最新的ChatGPT及GPT-4相关更新。

而同样是在 5月13日，国内公司 01.AI （零一万物）将在Hugging Face平台上发布专有模型 Yi-Large。据称内测效果「十分惊艳」。

与此同时，OpenAI 首席执行官山姆·阿特曼驳斥了路透社的一篇报道，报道称 OpenAI 将于下周一推出一款搜索产品。

阿特曼在 X 上发帖称，虽然 OpenAI 定于周一早上发布公告，但“不是 GPT-5，不是搜索引擎”，但无论它是什么，他说它“感觉就像魔术一样”。OpenAI 官方帖子提供的唯一细节是，此次发布将更新 ChatGPT 及其最新模型 GPT-4。

09:27 · 2024年5月10日 · 周五

据路透社，OpenAI可能会安排在谷歌年度 I/O 大会的前一天（周一）发布搜索产品。

届时 Google 预计也将推出一系列与人工智能相关的产品。

via
https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/

23:23 · 2024年5月9日 · 周四

5 月9日，阿里云召开峰会，正式发布通义千问2.5，模型性能全面赶超GPT-4-Turbo，成为“地表最强”中文大模型。同时，通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，成为开源领域最强大模型。

（券商中国）

另据 SuperCLUE 的测评结果，通义千问2.5取得总分74.93分，与GPT-4 Turbo仍有一定差距，相差5.21分。其他如编码和数学能力也有差距，但值得一提的是数学能力位居国内大模型第一。

07:25 · 2024年5月8日 · 周三

08:00 · 2024年4月27日 · 周六

Telegram 的 DC5 离线

用户目前报告连接到 DC5 或与位于 DC5 的用户和对话交互时出现问题。

该数据中心位于新加坡，为亚洲、大洋洲和澳大利亚的用户提供服务。

北京时间 1:30 更新：经过一个半小时的中断后，服务似乎正在重归稳定。

#outages

outages

22:26 · 2024年4月26日 · 周五

10:08 · 2024年4月26日 · 周五

美国联邦通信委员会(FCC)于2024年4月25日发布命令,指示中国电信、中国联通和中国移动在美国的分公司停止在美国提供固定或移动宽带互联网服务。

作为FCC出于国家安全考虑而采取的更广泛行动的一部分,该指令指出,这些中国电信公司"受到中国政府的剥削、影响和控制"。

FCC的决定要求这些运营商在同日批准的网络中立性命令生效之日起60天内停止服务。

src：
https://www.scmp.com/news/world/united-states-canada/article/3260401/us-federal-communications-commission-bars-chinese-telecoms-carriers-offering-broadband-services

——————

可信度：A

09:15 · 2024年4月26日 · 周五

商汤科技23日发布日日新5.0大模型，大部分核心测试集指标已对标或超过GPT-4 Turbo。

据商汤科技，日日新5.0大模型采用了混合专家架构（MoE），训练数据超过10TB tokens，具备200K的推理上下文窗口。

此外，商汤发布会现场还演示了文生图、扩图、多模态、工具调用等能力，也演示了端云结合的较小模型。

4月24日，商汤科技港股股价大涨后，公司公告临时停牌，停牌前涨幅高达31.15%。

官网链接：
chat.sensetime.com

（财联社）
——————

可信度：A

12:08 · 2024年4月17日 · 周三

Before

After