一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

21:10 · 2024年5月31日 · 周五

阿里和智谱相继宣布即将开源更先进的模型

阿里云于 5 月 31 日 16:20 在其微信公众号发文称，「更强的模型，即将开源」。据网络消息，阿里云此次开源的是 Qwen-2 模型，同规模下综合实力有望超越 llama3。

智谱清言的 GLM 大模型则于同日 18:48 发文称，为了更好推动大模型社区的发展，决定将开源更新的、更丰富能力的 GLM 模型，并于 6 月 5 日上午 10:00 举行开放日活动。文章配图为 GLM-4 is coming.

src：
https://mp.weixin.qq.com/s/B6DnBRch5c8S5ECYTkqvwQ
https://mp.weixin.qq.com/s/3XlKcAf5eezlPmCHBOp0lA

11:04 · 2024年5月31日 · 周五

OpenAI推出ChatGPT Edu,为大学提供负责任的AI部署方案

2024年5月30日,OpenAI宣布推出ChatGPT Edu,这是一个专为大学设计的ChatGPT版本,旨在让高校以负责任的方式将AI技术带给学生、教职员工、研究人员和校园运营。

ChatGPT Edu由GPT-4o驱动,可以在文本和视觉领域进行推理,并使用数据分析等高级工具。这一新产品包括企业级安全性和控制功能,价格也是教育机构可以承受的。

目前,牛津大学、宾夕法尼亚大学沃顿商学院、德克萨斯大学奥斯汀分校、亚利桑那州立大学和纽约市哥伦比亚大学等高校已经成功使用ChatGPT Enterprise,这促使OpenAI推出ChatGPT Edu。

ChatGPT Edu预计将在今年夏天正式推出,为高校在新学年全面引入AI技术提供了更多可能。

——————
Via:
https://www.forbes.com/sites/danfitzpatrick/2024/05/30/chatgpt-is-coming-for-higher-education-says-openai/?sh=6f76320c7e5d
https://openai.com/index/introducing-chatgpt-edu/

19:47 · 2024年5月23日 · 周四

一个小站的自留地

腾讯云控制台与 API 遭遇广泛服务中断 2024年04月08日，腾讯云出现出现严重宕机事故官方通报故障持续74 分钟（15:31 - 16:45），波及全球 17 个区域与数十款服务。据 cnBeta，从网友反馈的时间来看，此次腾讯云崩溃的时间大约在今天下午15:20左右。另据@非法加冯，傍晚 17 时仍有服务异常的零星用户报告。故障导致控制台等几乎所有与鉴权有关的功能不可用。而云服务器等产品则正常运行。腾讯云官方记录显示，官方于15:31发现故障，并于16:45 恢复，腾讯云方面暂未发布故障复盘。…

Microsoft Bing 故障导致多个平台搜索功能中断

2024年5月23日，由于 Microsoft Bing API 出现问题，多个依赖其搜索结果的平台和服务出现中断或间歇性故障，包括 ChatGPT、Copilot、DuckDuckGo 和 Ecosia 等。

据 TechCrunch 报道，故障始于美东时间凌晨3点左右。虽然此前 Bing 自家的网页搜索也受到影响，但目前似乎已恢复正常，可以正确加载搜索结果。

不过，依赖 Bing API 的其他搜索引擎如 DuckDuckGo 和 Ecosia 目前仍无法返回任何搜索结果。微软的 Copilot 服务也陷入加载循环，用户无法访问。允许付费订阅用户进行网络搜索的 ChatGPT 同样在用户尝试搜索时显示错误信息。

微软已确认其 Copilot 服务的加载问题，表示正在「努⼒查明问题原因」。不过微软的服务健康状态平台⽬前并未标记其他服务中断。OpenAI 和 Ecosia 也证实其平台的搜索功能出现问题，OpenAI 表⽰正在调查。

目前微软方面暂未回应媒体的置评请求。

09:17 · 2024年5月23日 · 周四

一个小站的自留地

商汤「日日新5.0」中文基准测评出炉，总分80.03刷新最好成绩，文科能力领跑在SuperCLUE综合基准上，SenseChat V5表现不俗，以总分80.03分的优异成绩刷新国内最好成绩（通义千问2.5取得总分74.93分，GPT-4o得分为81.73），并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分。在本次测评中，理科任务上SenseChat V5取得国内最好成绩，较GPT-4-Turbo-0125低4.35分，还有一定提升空间；文科任务上SenseChat V5表现十分…

百川智能「Baichuan 4」中文基准测评出炉，在SuperCLUE综合基准上，以总得分80.64分刷新了国内记录，也接近GPT-4o的81.73。

在中文综合能力测试中，「Baichuan 4」以1.51分的领先优势超过了GPT-4-Turbo-0125，展现了其在大模型方面的强大实力。

在理科任务上，Baichuan 4虽然以国内最佳成绩领先，但与GPT-4-Turbo-0125相比还有4.23分的差距，显示出进一步优化的空间。其中，逻辑推理（74.4分）和工具使用（80.8分）均刷新国内最好成绩。

在文科任务中，Baichuan 4以83.12分的高分不仅领先国内，也是国际上的最高分，比GPT-4-Turbo-0125高出5.33分，验证了其在文科领域的卓越能力。知识百科（89.8分）、长文本（80.8分）、生成创作（83.4分）、传统安全（90.2分）均刷新国内最好成绩。

——————

然而有网友认为，近期商汤「日日新5.0」和百川智能「Baichuan 4」等国产大模型屡屡「刷榜」，模型能力进步跨度过大，也有充值推广的嫌疑，实际模型使用体验还在存疑状态。

阿里云的通义千问2.5 模型，此前在SuperCLUE综合基准上取得总分74.93分；而零一万物在国外冲榜的开源大模型「Yi-Large」则获得74.29 分。

08:20 · 2024年5月22日 · 周三

微软Build 2024:吃下AI生产力蛋糕, 留一半给生态

5月22日, 微软在年度开发者盛会Build 2024上发布了50多项重大更新, 涵盖了从硬件到应用各个层面的AI布局, 意图吃下AI生产力蛋糕中的大部分, 将部分机会留给生态合作伙伴。其中亮点包括:

1. 硬件与云端:
- 与英伟达、AMD达成战略合作, 在Azure云服务中深度整合其加速芯片
- 发布自研AI芯片Maia和Cobalt, 提供强大算力支持

2. 模型生态:
- 携手逾5万家机构和众多模型提供商, 打造开放共赢的AI模型生态
- 发布Phi-3多模态小模型家族新成员Vision, 实现高效视觉理解
- 推出Azure AI Studio一站式开发平台, 降低AI应用开发门槛

3. 数据智能:
- 为Azure数据平台Fabric带来实时智能功能, 简化企业数据处理分析流程
- 集成数据可视化与智能搜索等服务, 赋能数据驱动型决策

4. 工具链与开发平台:
- Copilot Workspace实现编程自动化, 极大提升开发效率
- GitHub Copilot推出插件市场, 首批16家合作伙伴参与共建

5. 生产力应用:
- 发布新一代Copilot Personal助手, 在GPT-4o加持下性能全面升级
- 推出Team Copilot企业级智能助手, 赋能团队协作各个场景
- Copilot Studio & Connectors实现Agent自动化, 连接企业内外数据源

压轴助阵发布会的OpenAI CEO Sam Altman透露:
- OpenAI下一代大模型将很快推出, 带来突破性的多模态能力和通用人工智能
- GPT-4o性能将进一步提升且成本更低, 背后是微软提供的虎鲸规模的超算支持
- 鼓励开发者把握这一自互联网诞生、移动互联网繁荣以来最激动人心的技术革命时刻

微软此次发布会信息量巨大,从硬件、模型、数据、工具到应用各个层面布局AI,意图吃下AI赋能未来工作的大部分机会,将部分长尾需求留给生态伙伴。Build 2024见证了微软在人工智能领域"软硬兼施"的全栈实力, 也预示着通过开放、合作、创新, 微软有望在未来AI生产力赛道中抢得先机。

（综合媒体报道）

13:50 · 2024年5月21日 · 周二

一个小站的自留地

5 月9日，阿里云召开峰会，正式发布通义千问2.5，模型性能全面赶超GPT-4-Turbo，成为“地表最强”中文大模型。同时，通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，成为开源领域最强大模型。（券商中国）另据 SuperCLUE 的测评结果，通义千问2.5取得总分74.93分，与GPT-4 Turbo仍有一定差距，相差5.21分。其他如编码和数学能力也有差距，但值得一提的是数学能力位居国内大模型第一。

商汤「日日新5.0」中文基准测评出炉，总分80.03刷新最好成绩，文科能力领跑

在SuperCLUE综合基准上，SenseChat V5表现不俗，以总分80.03分的优异成绩刷新国内最好成绩（通义千问2.5取得总分74.93分，GPT-4o得分为81.73），并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分。

在本次测评中，理科任务上SenseChat V5取得国内最好成绩，较GPT-4-Turbo-0125低4.35分，还有一定提升空间；文科任务上SenseChat V5表现十分出色，以82.20分取得国内外最高分。

（SuperCLUE）

11:24 · 2024年5月21日 · 周二

国产大模型价格战时间线

5月6日
DeepSeek官网推出“高性价比”大模型DeepSeek-V2，将价格降至每百万词元输入1元、输出2元（32K上下文）。该模型能力对标GPT-4和llama 3-70B，价格仅为GPT-4的近1%。开发者登录DeepSeek开放平台送500万词元。

5月11日
智谱AI调整旗下入门级大模型GLM-3-Turbo（上下文长度128k）的价格，从0.005元/千词元降低到0.001元/千词元。此外，开放平台新注册用户获赠从500万词元提升至2500万词元（包含2000万GLM3-Turbo和500万GLM4）。GLM-3 Turbo Batch批处理API进一步降价50%，至0.0005元/千词元，即1元可处理200万词元。

5月15日
在火山引擎原力大会上，火山引擎总裁谭待宣布豆包主力模型在企业市场的定价为0.0008元/千词元，即0.8厘可处理1500多个汉字，比行业便宜99.3%。

5月21日
阿里云宣布通义千问全系降价，最高降幅达97%。通义千问商业化模型和开源模型降价，以跟进国产大模型降价潮。

同日，百度宣布旗下ERNIE Speed和ERNIE Lite模型「全面免费，立即生效」，但旗舰模型定价保持不变。

5月22日
科大讯飞宣布讯飞星火API能力正式免费开放。其中，讯飞星火Lite API永久免费开放，讯飞星火顶配版（Spark3.5 Max）API价格低至0.21元/万词元。

同日，腾讯宣布其开发的混元-lite模型全面免费。

——————

至此，国内大模型厂商的降价潮已覆盖几乎所有主流大模型的基本版。

有评论指出，当国产大模型纷纷迈入「百万词元一元钱」的门槛后，意味着这些模型功能上逐渐成熟，但价格的急剧下降可能会导致行业内的「清场」，小玩家逐渐被淘汰。随着成本的下降，相关应用会迅速兴起并普及。降价潮过后，将进入国产大模型的下半场。

然而，也有观点认为，这场价格战看似降低了小规模开发测试的成本，但实际上却隐藏了高并发资源的额外费用，生产级的真实成本并未下降。价格战的背后更多是为了市场份额和眼球效应，而非真正的技术进步。

15:39 · 2024年5月20日 · 周一

一个小站的自留地

SuperCLUE 公布了GPT-4o 的中文能力评测结果： - 在完成SuperCLUE推理任务时，GPT-4o的整体得分为81.73，超过GPT-4 Turbo成为中文推理任务最强模型。 - GPT-4o在SC-Math6数学基准上得分91.77分，较GPT-4 Turbo提升1.06分，登顶SC-Math6榜首，判定为推理等级5。 - GPT-4o在SC-Code3代码基准上得分71.68分，较GPT-4 Turbo提升2.11分，刷新SC-Code3最好成绩。（SuperCLUE）

OpenAI发布GPT-4o后，一些中文用户发现其标记中充斥着垃圾信息和色情短语

OpenAI于5月13日发布GPT-4o后，一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐（音）分析了最长的100个中文token，发现大部分与赌博或色情有关，只有少数是常用词。
大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品，但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇，并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。
这些无效数据主要来源于垃圾和色情网站，这些网站通过劫持无关内容来提升搜索引擎排名，从而污染了GPT-4o的训练数据。
目前尚不清楚其他语言是否受影响，但有用户报告韩语token库也有类似问题。

（MIT科技评论）（竹新社）

11:52 · 2024年5月15日 · 周三

一个小站的自留地

OpenAI春季更新：大戏到来前的半代升级 1. 发布ChatGPT新UI,界面更加圆润和易用。 2. 推出GPT-4o模型,在文本、语音、视频三个方面有重大升级,足以颠覆多个行业: - 文本方面达到GPT-4级别,向所有人开放。 - 语音功能可以随时打断对话、声音实时自然,能生成切合场景的音调。 - 视频功能可以进行视频对话,比如在线解题,反应自然。 3. 推出桌面版ChatGPT应用,通过快捷键即可快速使用。可以直接讨论应用内的屏幕截图。 4. 开放GPT-4o的API,相比GPT-4 turbo…

完整评论文章已于博客和少数派平台同时发布

博客版：
https://www.ygxz.in/dairy/4338/

少数派版：
https://sspai.com/post/88803

（谷歌的就不写了，不出意外的话下次特别更新会是 WWDC ）

小站背面

【特别更新】OpenAI春季更新：大戏到来前的半代升级

GPT-4o 到底更新了什么？OpenAI 是否保住了自己在大模型领域的绝对话语权？为什么网友看完演示后纷纷感叹「你大爷还是你大爷」？

一个小站在一天的时间里密集阅读了各路媒体、博主、机构以及来自 OpenAI 官方的宣传视频、解读分析和实测体验，本文就来一文讲清堪称「科技界小春晚」的这次OpenAI Spring Update。

08:10 · 2024年5月15日 · 周三

一个小站的自留地

OpenAI春季更新：大戏到来前的半代升级 1. 发布ChatGPT新UI,界面更加圆润和易用。 2. 推出GPT-4o模型,在文本、语音、视频三个方面有重大升级,足以颠覆多个行业: - 文本方面达到GPT-4级别,向所有人开放。 - 语音功能可以随时打断对话、声音实时自然,能生成切合场景的音调。 - 视频功能可以进行视频对话,比如在线解题,反应自然。 3. 推出桌面版ChatGPT应用,通过快捷键即可快速使用。可以直接讨论应用内的屏幕截图。 4. 开放GPT-4o的API,相比GPT-4 turbo…

谷歌 I/O 2024发布会：用AI突袭OpenAI

1. Gemini 1.5 Pro模型上下文长度提升至200万token,为目前最长,可处理2小时视频、22小时音频或超60,000行代码。

2. 推出轻量级Gemini 1.5 Flash模型,更便宜更快,同样支持100万token长上下文和多模态输入。价格仅为GPT-4的二十分之一。

3. 谷歌搜索引入AI Overviews功能,在搜索结果顶端提供AI生成的全面答案总结。已向美国用户开放。

4. 发布全新AI智能助理Astra,效果不输GPT-4o,可通过摄像头识别物体、代码等,并进行语音交互。展示了配合AR眼镜使用的强大效果。

5. 推出文生视频模型Veo,可生成1080p、超60秒长度的高质量视频,打破GPT-4的Sora的多项纪录。

6. 升级Imagen图像生成模型至第三代,细节更丰富,理解能力更强。Music AI Sandbox可协助音乐创作。

7. 第六代TPU芯片Trillium发布,算力比上一代提升4.7倍。Gemini将广泛应用于谷歌生态各个产品和服务中。

18:43 · 2024年5月14日 · 周二

一个小站的自留地

OpenAI春季更新：大戏到来前的半代升级 1. 发布ChatGPT新UI,界面更加圆润和易用。 2. 推出GPT-4o模型,在文本、语音、视频三个方面有重大升级,足以颠覆多个行业: - 文本方面达到GPT-4级别,向所有人开放。 - 语音功能可以随时打断对话、声音实时自然,能生成切合场景的音调。 - 视频功能可以进行视频对话,比如在线解题,反应自然。 3. 推出桌面版ChatGPT应用,通过快捷键即可快速使用。可以直接讨论应用内的屏幕截图。 4. 开放GPT-4o的API,相比GPT-4 turbo…

SuperCLUE 公布了GPT-4o 的中文能力评测结果：

- 在完成SuperCLUE推理任务时，GPT-4o的整体得分为81.73，超过GPT-4 Turbo成为中文推理任务最强模型。

- GPT-4o在SC-Math6数学基准上得分91.77分，较GPT-4 Turbo提升1.06分，登顶SC-Math6榜首，判定为推理等级5。

- GPT-4o在SC-Code3代码基准上得分71.68分，较GPT-4 Turbo提升2.11分，刷新SC-Code3最好成绩。

（SuperCLUE）

08:16 · 2024年5月14日 · 周二

一个小站的自留地

OpenAI春季更新：大戏到来前的半代升级 1. 发布ChatGPT新UI,界面更加圆润和易用。 2. 推出GPT-4o模型,在文本、语音、视频三个方面有重大升级,足以颠覆多个行业: - 文本方面达到GPT-4级别,向所有人开放。 - 语音功能可以随时打断对话、声音实时自然,能生成切合场景的音调。 - 视频功能可以进行视频对话,比如在线解题,反应自然。 3. 推出桌面版ChatGPT应用,通过快捷键即可快速使用。可以直接讨论应用内的屏幕截图。 4. 开放GPT-4o的API,相比GPT-4 turbo…

OpenAI 在昨晚线上直播了 Spring Update（春季更新），时间不仅故意选在对家谷歌年度 I/O 大会的前一天，而且早在发布会前就通过放料+辟谣的连环操作吊足了各路媒体和网友的胃口。

本次发布会可以说非常具有工科人的那种直率气质，在一开始就把整场发布会的要点放在了身后的 Slides 上，也就是号称「人人都能用上」的「GPT-4o」模型。

GPT-4o是OpenAI继GPT-4后推出的全新基础模型,其中o代表omni,即"全能"的意思,体现了模型在多模态等方面的全面升级。

GPT-4o最大的亮点是支持多模态输入输出,能够接受和生成文本、语音、图像的任意组合,使人机交互更加自然流畅。语音响应速度大幅提升,可在232毫秒内给出回应,接近人类水平。

性能方面,GPT-4o在英语文本和编程方面与GPT-4 turbo相当,但在非英语文本、视觉、语音理解等方面有显著提升。同时推理速度更快,API价格降低50%。

在多个基准测试中,GPT-4o刷新了之前模型的最好成绩。如在MMLU（语言理解能力评测）上得分88.7,为综合模型最高分;在MATH数学推理上较此前最好模型（Claude3-Opus）提升27.5%;在HumanEval编程评测中达90.5分,也是最高水平。

在发布会中，OpenAI表示，希望把最强大的AI工具免费提供给所有人使用,未来每个人或将拥有像GPT-7这样的AI算力。

07:58 · 2024年5月14日 · 周二

OpenAI春季更新：大戏到来前的半代升级

1. 发布ChatGPT新UI,界面更加圆润和易用。

2. 推出GPT-4o模型,在文本、语音、视频三个方面有重大升级,足以颠覆多个行业:

- 文本方面达到GPT-4级别,向所有人开放。
- 语音功能可以随时打断对话、声音实时自然,能生成切合场景的音调。
- 视频功能可以进行视频对话,比如在线解题,反应自然。

3. 推出桌面版ChatGPT应用,通过快捷键即可快速使用。可以直接讨论应用内的屏幕截图。

4. 开放GPT-4o的API,相比GPT-4 turbo,速度提升2倍、价格降低一半、访问限制提高5倍。

5. 免费用户也可以使用GPT-4级别的ChatGPT,但消息限制是付费用户的1/5。付费用户享有更多高级功能。

6. OpenAI希望把最强大的AI工具免费提供给所有人使用,未来每个人或将拥有像GPT-7这样的AI算力。

可信度：A

14:06 · 2024年5月13日 · 周一

一个小站的自留地

而同样是在 5月13日，国内公司 01.AI （零一万物）将在Hugging Face平台上发布专有模型 Yi-Large。据称内测效果「十分惊艳」。

据 SuperCLUE，Yi-Large表现不俗，以总分74.29分跻身国内大模型第一梯队。（国内第一暂时为通义千问2.5的74.93分，但不开源）

在本次测评中，相比国外代表性模型很有竞争力。总体来看，Yi-Large表现好于Llama3-70B，与Claude3-Opus打平，相比GPT4 Turbo相差4.84分，还有一定提升空间。

Yi-Large在各项能力上表现均衡，尤其在计算、代码、知识百科和语言理解能力上处于国内领先位置，适用于数理运算、编程助手、知识运用及文本处理等应用场景。安全能力还有一定提升空间。

（SuperCLUE）

15:16 · 2024年5月11日 · 周六

一个小站的自留地

另据本频信源，OpenAI 与微软近期确实可能有一次大规模面向公众的产品发布，而且大概率与现有 ChatGPT 产品无关。这很有可能是上文媒体提到的搜索产品。

据新智元综合网友爆料，所谓「搜索产品」是OpenAI投出的诱饵，目的是揪出内部泄密者。而经常给Jimmy Apples、Flowers泄密的爆料人，已经被OpenAI解雇。

而 Information 则报道称，OpenAI正在开发一个全能的AI语音助手，预计在下周展示。这项新技术可以通过声音和文本，与人交流，可以听出不同人的语调、语气，并能识别物体和图像。

09:00 · 2024年5月11日 · 周六

一个小站的自留地

据路透社，OpenAI可能会安排在谷歌年度 I/O 大会的前一天（周一）发布搜索产品。届时 Google 预计也将推出一系列与人工智能相关的产品。 via https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/

OpenAI宣布，将于美国时间5月13日上午10点（北京时间5月14日凌晨1点），在其官网上直播，并展示最新的ChatGPT及GPT-4相关更新。

而同样是在 5月13日，国内公司 01.AI （零一万物）将在Hugging Face平台上发布专有模型 Yi-Large。据称内测效果「十分惊艳」。

与此同时，OpenAI 首席执行官山姆·阿特曼驳斥了路透社的一篇报道，报道称 OpenAI 将于下周一推出一款搜索产品。

阿特曼在 X 上发帖称，虽然 OpenAI 定于周一早上发布公告，但“不是 GPT-5，不是搜索引擎”，但无论它是什么，他说它“感觉就像魔术一样”。OpenAI 官方帖子提供的唯一细节是，此次发布将更新 ChatGPT 及其最新模型 GPT-4。

09:27 · 2024年5月10日 · 周五

一个小站的自留地

OpenAI 近期动作频频，新搜索产品最快于 5 月 9 日推出，GPT-5 可能于 6 月推出 OpenAI 近期对其官网进行了更新，同时也有网友发现，OpenAI 的域名出现了五十余个新的子域名，其中最受关注的是 search.chatgpt.com 。据报道， OpenAI 一直在开发一款网络搜索产品，这将加剧与Google的竞争。该搜索服务将部分由 Bing 提供支持。据外电援引消息人士Jimmy Apples透露， OpenAI 可能很快就会推出一款新的搜索引擎，并表示该公司计划在本月举办一场活动，暂定于…

据路透社，OpenAI可能会安排在谷歌年度 I/O 大会的前一天（周一）发布搜索产品。

届时 Google 预计也将推出一系列与人工智能相关的产品。

via
https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/

23:23 · 2024年5月9日 · 周四

一个小站的自留地

阿里正式开源1100亿参数Qwen1.5-110B模型 Qwen1.5-110B模型是截止目前为止国内开源模型中参数规模最大的模型。Qwen1.5-110B模型与其它Qwen1.5系列模型架构一致。采用了分组查询注意力机制，因此推理效率很高。该模型最高支持32K上下文，并且支持多语言。根据官方公布的评测结果，Qwen1.5-110B模型的评测结果略超过Llama-3-70B和Mixtral-8×22B，是除了Llama3-70B-Instruct模型外最强的开源模型。国内此前开源领域最大的参数模…

5 月9日，阿里云召开峰会，正式发布通义千问2.5，模型性能全面赶超GPT-4-Turbo，成为“地表最强”中文大模型。同时，通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，成为开源领域最强大模型。

（券商中国）

另据 SuperCLUE 的测评结果，通义千问2.5取得总分74.93分，与GPT-4 Turbo仍有一定差距，相差5.21分。其他如编码和数学能力也有差距，但值得一提的是数学能力位居国内大模型第一。

07:25 · 2024年5月8日 · 周三

一个小站的自留地

OpenAI 近期动作频频，新搜索产品最快于 5 月 9 日推出，GPT-5 可能于 6 月推出 OpenAI 近期对其官网进行了更新，同时也有网友发现，OpenAI 的域名出现了五十余个新的子域名，其中最受关注的是 search.chatgpt.com 。据报道， OpenAI 一直在开发一款网络搜索产品，这将加剧与Google的竞争。该搜索服务将部分由 Bing 提供支持。据外电援引消息人士Jimmy Apples透露， OpenAI 可能很快就会推出一款新的搜索引擎，并表示该公司计划在本月举办一场活动，暂定于…

首先，搜索还是 Bing 提供的，但也能感觉到确实比以前快了。

对于他不知道的信息，比如苹果发布会，真的有去联网。

不过，对于非常实时的信息，依然不能很好处理，如比特币价格。

在联网后，多语言上处理上依然有问题，比如在 YC News 中，并没有按中文来回复。

同时的，考虑到还在灰度。等全量上线后，可能会不同。

（赛博禅心）

21:35 · 2024年5月4日 · 周六

OpenAI 近期动作频频，新搜索产品最快于 5 月 9 日推出，GPT-5 可能于 6 月推出

OpenAI 近期对其官网进行了更新，同时也有网友发现，OpenAI 的域名出现了五十余个新的子域名，其中最受关注的是 search.chatgpt.com 。

据报道， OpenAI 一直在开发一款网络搜索产品，这将加剧与Google的竞争。该搜索服务将部分由 Bing 提供支持。

据外电援引消息人士Jimmy Apples透露， OpenAI 可能很快就会推出一款新的搜索引擎，并表示该公司计划在本月举办一场活动，暂定于 2024 年 5 月 9 日上午 10 点。知情人士还透露，OpenAI 从 1 月初开始就在招聘活动团队，负责组织内部活动。

另据本频信源，OpenAI 与微软近期确实可能有一次大规模面向公众的产品发布，而且大概率与现有 ChatGPT 产品无关。这很有可能是上文媒体提到的搜索产品。

——————

可信度：B

src：https://www.cnbeta.com.tw/articles/tech/1429477.htm#google_vignette

Before

After

Home

个人博客

讨论组