OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。
大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。
这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。
目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。
(MIT科技评论)(竹新社)
完整评论文章已于博客和少数派平台同时发布
1. Gemini 1.5 Pro模型上下文长度提升至200万token,为目前最长,可处理2小时视频、22小时音频或超60,000行代码。
2. 推出轻量级Gemini 1.5 Flash模型,更便宜更快,同样支持100万token长上下文和多模态输入。价格仅为GPT-4的二十分之一。
3. 谷歌搜索引入AI Overviews功能,在搜索结果顶端提供AI生成的全面答案总结。已向美国用户开放。
4. 发布全新AI智能助理Astra,效果不输GPT-4o,可通过摄像头识别物体、代码等,并进行语音交互。展示了配合AR眼镜使用的强大效果。
5. 推出文生视频模型Veo,可生成1080p、超60秒长度的高质量视频,打破GPT-4的Sora的多项纪录。
6. 升级Imagen图像生成模型至第三代,细节更丰富,理解能力更强。Music AI Sandbox可协助音乐创作。
7. 第六代TPU芯片Trillium发布,算力比上一代提升4.7倍。Gemini将广泛应用于谷歌生态各个产品和服务中。
- 在完成SuperCLUE推理任务时,GPT-4o的整体得分为81.73,超过GPT-4 Turbo成为中文推理任务最强模型。
- GPT-4o在SC-Math6数学基准上得分91.77分,较GPT-4 Turbo提升1.06分,登顶SC-Math6榜首,判定为推理等级5。
- GPT-4o在SC-Code3代码基准上得分71.68分,较GPT-4 Turbo提升2.11分,刷新SC-Code3最好成绩。
(SuperCLUE)
本次发布会可以说非常具有工科人的那种直率气质,在一开始就把整场发布会的要点放在了身后的 Slides 上,也就是号称「人人都能用上」的「GPT-4o」模型。
GPT-4o是OpenAI继GPT-4后推出的全新基础模型,其中o代表omni,即"全能"的意思,体现了模型在多模态等方面的全面升级。
GPT-4o最大的亮点是支持多模态输入输出,能够接受和生成文本、语音、图像的任意组合,使人机交互更加自然流畅。语音响应速度大幅提升,可在232毫秒内给出回应,接近人类水平。
性能方面,GPT-4o在英语文本和编程方面与GPT-4 turbo相当,但在非英语文本、视觉、语音理解等方面有显著提升。同时推理速度更快,API价格降低50%。
在多个基准测试中,GPT-4o刷新了之前模型的最好成绩。如在MMLU(语言理解能力评测)上得分88.7,为综合模型最高分;在MATH数学推理上较此前最好模型(Claude3-Opus)提升27.5%;在HumanEval编程评测中达90.5分,也是最高水平。
在发布会中,OpenAI表示,希望把最强大的AI工具免费提供给所有人使用,未来每个人或将拥有像GPT-7这样的AI算力。
而同样是在 5月13日,国内公司 01.AI (零一万物)将在Hugging Face平台上发布专有模型 Yi-Large。据称内测效果「十分惊艳」。
与此同时,OpenAI 首席执行官山姆·阿特曼驳斥了路透社的一篇报道,报道称 OpenAI 将于下周一推出一款搜索产品。
阿特曼在 X 上发帖称,虽然 OpenAI 定于周一早上发布公告,但“不是 GPT-5,不是搜索引擎”,但无论它是什么,他说它“感觉就像魔术一样”。OpenAI 官方帖子提供的唯一细节是,此次发布将更新 ChatGPT 及其最新模型 GPT-4。
届时 Google 预计也将推出一系列与人工智能相关的产品。
via
https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/
(券商中国)
另据 SuperCLUE 的测评结果,通义千问2.5取得总分74.93分,与GPT-4 Turbo仍有一定差距,相差5.21分。其他如编码和数学能力也有差距,但值得一提的是数学能力位居国内大模型第一。
用户目前报告连接到 DC5 或与位于 DC5 的用户和对话交互时出现问题。
该数据中心位于新加坡,为亚洲、大洋洲和澳大利亚的用户提供服务。
北京时间 1:30 更新:经过一个半小时的中断后,服务似乎正在重归稳定。
#outages
美国联邦通信委员会(FCC)于2024年4月25日发布命令,指示中国电信、中国联通和中国移动在美国的分公司停止在美国提供固定或移动宽带互联网服务。
作为FCC出于国家安全考虑而采取的更广泛行动的一部分,该指令指出,这些中国电信公司"受到中国政府的剥削、影响和控制"。
FCC的决定要求这些运营商在同日批准的网络中立性命令生效之日起60天内停止服务。
src:
https://www.scmp.com/news/world/united-states-canada/article/3260401/us-federal-communications-commission-bars-chinese-telecoms-carriers-offering-broadband-services
——————
作为FCC出于国家安全考虑而采取的更广泛行动的一部分,该指令指出,这些中国电信公司"受到中国政府的剥削、影响和控制"。
FCC的决定要求这些运营商在同日批准的网络中立性命令生效之日起60天内停止服务。
src:
https://www.scmp.com/news/world/united-states-canada/article/3260401/us-federal-communications-commission-bars-chinese-telecoms-carriers-offering-broadband-services
——————
可信度:A
据商汤科技,日日新5.0大模型采用了混合专家架构(MoE),训练数据超过10TB tokens,具备200K的推理上下文窗口。
此外,商汤发布会现场还演示了文生图、扩图、多模态、工具调用等能力,也演示了端云结合的较小模型。
4月24日,商汤科技港股股价大涨后,公司公告临时停牌,停牌前涨幅高达31.15%。
官网链接:
chat.sensetime.com
(财联社)
——————
可信度:A
腾讯云称,此次故障一共持续了近87分钟,期间共有1957个客户报障。
整个处理过程如下:
1. 15:23,监测到故障,立即执行服务的恢复,同时进行原因的排查;
2. 15:47,发现通过回滚版本没能完全恢复服务,进一步定位问题;
3. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
4. 16:02,对全地域进行数据修复工作,API服务逐地域恢复中;
5. 16:05,观测到除上海外的地域API服务均已恢复,进一步定位上海地域的恢复问题;
6. 16:25,定位到上海的技术组件存在API循环依赖问题,决定通过流量调度至其他地域来恢复;
7. 16:45,观测到上海地域恢复了,此时API和依赖API的PaaS服务彻底恢复,但控制台流量剧增,按九倍容量进行了扩容;
8. 16:50,请求量逐渐恢复到正常水平,业务稳定运行,控制台服务全部恢复;
9. 17:45,持续观察一小时,未发现问题,按预案处理过程完毕。
Src:
https://mp.weixin.qq.com/s/2e2ovuwDrmwlu-vW0cKqcA