一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

19:12 · 2024年7月27日 · 周六

一个小站的自留地

Anthropic公司宣布Claude 3.5 Sonnet模型最大输出翻倍 Anthropic公司近日宣布,将旗下Claude 3.5 Sonnet大语言模型的最大输出token数从4096提高到8192。这一更新目前仅面向API用户开放,开发者需要在API调用中添加"anthropic-beta": "max-tokens-3-5-sonnet-2024-07-15"这一header才能启用新功能。据Anthropic公司开发者关系负责人Alex Albert介绍,这一更新暂时还未在Claude.ai网页版中生效…

Claude 的附件限制由「5/对话」改为「5/消息」。

现在，你可以在 Claude 的单次对话中上传超过五个附件。但受限于模型能力，用户仍然会受到单次对话 200K 上下文的限制。

16:19 · 2024年7月26日 · 周五

一个小站的自留地

供应链投毒事件新进展:调查曝光背后关联企业网络,爆料者遭威胁一名博主发文揭露Staticfile、BootCDN和Polyfill等多家知名CDN服务背后可能由同一批关联企业操控。该研究者通过梳理域名备案信息和企业关系,发现这些CDN域名的备案公司可以通过股东或实际控制人关联起来,其中包括运营51[.]La站点统计平台的郑州紫田网络科技有限公司,以及一家名为Funnull的公司。 7月17日,该研究者在技术社区V2EX上发帖称,自从发布相关调查结果后,收到了据称来自相关公司的威胁邮件,要求删除文章。…

GoEdge CDN 疑遭供应链攻击，部分版本含恶意代码

有网友发现广受欢迎的开源 CDN 系统 GoEdge 可能遭遇供应链攻击。研究显示，从 v1.3.9 到 v1.4.1 版本的 GoEdge 中包含可疑 JavaScript 代码。本次被投毒的资源是https://cdn.jsdelivr[.]vip/jquery.min-3.7.0.js，使用了与polyfill[.]io 事件相同的方能 CDN（也即 51.la 相关事件），因此该事件或与近期备受关注的 polyfill[.]io 供应链攻击案例存在关联。

据悉，GoEdge 原开发者于今年 4 月基本消失，5 月 20 日在 QQ 群发布最后一条消息。5 月 24 日，可疑代码首次出现在发布包中。7 月，该问题被公开披露。

对可疑代码进行分析后发现，该代码会检测用户环境、访问时间，并进行关键词匹配。符合条件时，代码会将用户重定向至域名为 wweeza[.]com 的博彩网站。

早前，GoEdge 的域名所有权已经发生变更。 goedge.cn 域名被转出，备案信息从刘**变更为莫**，并重定向至 goedge.cloud。销售渠道也从淘宝转为 Telegram。

对此，现 GoEdge 官方在 Telegram 群组中先是否认问题存在，随后又重新编译并发布了无恶意代码的 v1.4.1 版本。

16:02 · 2024年7月26日 · 周五

一个小站的自留地

Anthropic公司宣布Claude 3.5 Sonnet模型最大输出翻倍 Anthropic公司近日宣布,将旗下Claude 3.5 Sonnet大语言模型的最大输出token数从4096提高到8192。这一更新目前仅面向API用户开放,开发者需要在API调用中添加"anthropic-beta": "max-tokens-3-5-sonnet-2024-07-15"这一header才能启用新功能。据Anthropic公司开发者关系负责人Alex Albert介绍,这一更新暂时还未在Claude.ai网页版中生效…

DeepSeek API 新增多项功能提升模型能力

7月26日,DeepSeek宣布其API进行重大更新,新增多项功能以增强模型能力:

1. 更新 /chat/completions 接口:
- 新增 JSON Output 功能,可强制模型输出 JSON 格式字符串,方便后续处理
- 增加 Function Calling 功能,支持调用外部工具,增强模型与现实世界交互能力
- 新增对话前缀续写功能(Beta),允许用户指定 assistant 消息前缀进行补全
- 将最长输出提升至 8K tokens(Beta)

2. 新增 /completions 接口:
- 增加 FIM 补全功能(Beta),支持用户提供自定义前缀/后缀进行内容补全

所有新功能均可用于 deepseek-chat 和 deepseek-coder 模型。Beta 功能需将 base_url 设为 https://api.deepseek.com/beta 开启。

DeepSeek 表示,这些更新旨在释放模型更多潜力,提升自动化能力和与现实世界的交互。Beta 功能开放给所有用户使用,相关模型版本稳定后将发布到开源社区。

用户可访问 DeepSeek API 官方文档(https://platform.deepseek.com/api-docs/zh-cn/)获取详细使用说明。

(深度求索 DeepSeek)

12:06 · 2024年7月26日 · 周五

一个小站的自留地

快手「可灵」：可能是「中国版Sora」在快手13周年庆典上，快手毫无预兆地发布了AI视频大模型「可灵」。「可灵」支持生成最长2分钟、30fps的1080P视频，从头脑风暴到可发布作品的一键转化功能，让全球用户大为震撼。其生成效果不仅超越了Sora，还引发了硅谷创投圈的热议。Stability AI前CEO Emad Mostaque称赞中国AI技术有其独特优势，YC CEO也在X平台转发了可灵生成的视频示例。「可灵」成为国内首个文生视频产品级应用，不论是在生成视频的连续性、真实度和清晰度方面，…

智谱 AI 发布新一代视频生成模型 CogVideoX,所有用户可免费体验

7月26日,智谱AI宣布推出新一代视频生成模型CogVideoX,并在其AI助手「智谱清言」的各平台上线名为「清影」(Ying)的视频生成功能。所有用户均可免费体验AI文本生成视频和图像生成视频的服务。

CogVideoX在内容连贯性、可控性和模态融合方面有显著创新:

- 采用自研的三维变分自编码器(3D VAE)结构,将视频压缩至原始大小的2%,显著提升内容连贯性。

- 开发端到端视频理解模型,增强对文本的理解和指令遵循能力。

- 创新性地设计将文本、时间、空间三维融合的transformer架构,优化模态间交互。

「清影」可在30秒内生成6秒视频,具备高效的指令遵循能力、良好的内容连贯性和灵活的画面调度能力。

在生态合作方面,B站参与了清影的技术研发过程,华策影视也参与了模型共建。清影的训练依托北京亦庄高性能算力集群,未来将应用于亦庄的高精尖产业集群。

用户可通过智谱清言的PC端、移动应用端、小程序端或访问https://chatglm.cn/video 使用该服务。企业和开发者也可通过智谱大模型开放平台bigmodel.cn的API调用该功能。

智谱AI CEO张鹏表示,公司已验证Scaling Law在视频生成领域的有效性,未来将继续扩大数据和模型规模,并探索更具突破性的新型模型架构。

(GLM大模型）

src：
https://mp.weixin.qq.com/s/Xua54oISZGB6lPCI3pWoTQ

10:07 · 2024年7月26日 · 周五

一个小站的自留地

OpenAI 推迟 ChatGPT 高级语音模式发布 OpenAI 官方在 Discord 群组通知了 ChatGPT 高级语音模式的最新进展。他们表示，「需要再多一个月的时间来达到发布标准」。该公司在今年春季更新中曾演示这一功能，原计划于 6 月底向部分 ChatGPT Plus 用户推出 alpha 版本。 OpenAI表示，延迟的主要原因包括提升模型检测和拒绝某些内容的能力、改进用户体验，以及为大规模用户使用做好基础设施准备，以保证实时响应。 OpenAI 计划采用灰度发布，即先向一小部分…

OpenAI CEO Sam Altman 在社交平台 X 上宣布,OpenAI 将于下周正式向 Plus 用户推出 ChatGPT 高级语音模式的 Alpha 版本。

此时距离 OpenAI 宣布推迟该功能发布恰好过去了一个月时间。

src：
https://x.com/sama/status/1816560608554418401

09:40 · 2024年7月26日 · 周五

一个小站的自留地

与此同时，OpenAI 首席执行官山姆·阿特曼驳斥了路透社的一篇报道，报道称 OpenAI 将于下周一推出一款搜索产品。

OpenAI 发布 SearchGPT 原型,正式进军 AI 搜索领域

7 月 26 日凌晨,OpenAI 宣布推出名为 SearchGPT 的 AI 搜索引擎原型,正式宣告进军 AI 搜索领域,与 Google、Bing 以及 Perplexity 等竞争对手展开竞争。SearchGPT 旨在结合 OpenAI 的 AI 模型能力和网络信息,为用户提供快速、及时的答案,并附上清晰且相关的来源。

目前,SearchGPT 仅向 1 万名测试用户开放,以获取反馈意见。尽管这是一个临时原型,OpenAI 计划将其中最优功能直接整合到未来的 ChatGPT 中。感兴趣的用户可通过 https://chatgpt.com/search 申请内测。

SearchGPT 采用类似 ChatGPT 的对话式界面,由 GPT-4 系列模型驱动。它能够实时访问互联网信息,在回答中提供清晰的内嵌署名归属和链接,用户还可以在侧栏中快速访问更多带有源链接的结果。此外,SearchGPT 还支持多轮对话,每次查询都会积累共享的上下文。

OpenAI 表示,公司致力于建设一个繁荣的出版商和创作者生态系统。它已与多家新闻媒体达成合作,包括《大西洋月刊》、美联社和《华尔街日报》的母公司新闻集团等。这些合作旨在确保 AI 驱动的搜索建立在高质量、可靠的信息之上,同时保护内容来源。

（OpenAI、The Verge、WIRED、CNBC、The Guardian）

——————

Google 免费开放 Gemini 1.5 Flash AI 模型

Google 于 7 月 26 日宣布,将向所有用户免费开放其最新的 Gemini 1.5 Flash 大语言模型(LLM)。这一轻量级 AI 模型旨在与 OpenAI 的 GPT-4o mini 竞争,为用户提供更快、更智能的 AI 体验。

Gemini 1.5 Flash 模型现已在超过 230 个国家和地区的 40 多种语言中提供,可通过 Gemini 移动应用和 gemini.google.com 网页界面使用。Google 表示,用户将在响应质量和速度方面看到「全面的改进」,特别是在推理和图像理解方面。

新模型的一个显著特点是将上下文窗口扩大到了 32K tokens,是之前版本的四倍。（编注：与 ChatGPT 网页版的 GPT-4o 系列模型一致）这意味着它可以处理更长的输入,进行更复杂的对话。Google 还计划在近期添加从 Google Drive 或设备直接上传文件的功能,以充分利用这一扩展的上下文窗口。

除了模型升级,Google 还宣布了其他更新。它在某些国家/地区为英语提示词添加了相关内容链接,以帮助用户进一步探索话题。Google 还在欧洲经济区(EEA)、英国和瑞士逐步推出 Google Messages 中的 Gemini 功能,并扩展了支持的语言。

此外,Google 计划在未来几周内向全球 13 岁以上的青少年开放 Gemini 访问权限,同时实施额外的安全措施和政策。

（Google 官方博客、ZDNet、TechCrunch、The Verge、Engadget）

——————

OpenAI 被认为发展放缓，仅在竞争对手发出新产品时通过放出功能原型争夺关注。

而随着 Gemini 数次更新推迟，且新模型迟迟未出，网友们对谷歌也渐渐失去了耐心。

Gemini 的下一次更新将在八月中旬。

07:38 · 2024年7月25日 · 周四

Mistral AI 发布 Mistral Large 2，123B 大小，128k 上下文，支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的数十种语言。

性能方面，官方宣称表现远超之前的 Mistral Large，与 GPT-4o、Claude 3 Opus 和 Llama 3.1 405B 相媲美。

开源地址: https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

20:02 · 2024年7月24日 · 周三

一个小站的自留地

据信是 Llama 3-405B 的模型以及基准测试成绩已经被泄露。网友整理的模型下载地址： https://x.com/kimmonismus/status/1815314833236984274 从泄露的基准测试成绩来看，Llama 3-405B 模型在大多数方面优于 GPT-4o，这一结果或侧面表面 GPT-4o 模型蒸馏后的模型参数小于这一量级。据新智元报道，除了最大的405B，Meta这次还升级了5月初发布的8B和70B模型，并将上下文长度全部提升到了128K。至此，模型版本也正式从Llama…

Llama3.1 中文能力基准测试：超过GPT-4 Turbo，弱于GPT-4o

Meta于7月23日发布Meta Llama 3.1 405B，并认为这是世界上最大、功能最强大的开源基础模型。顶级开源模型Llama 3.1 405B的上下文长度扩展到了 128K、支持八种语言，在常识、可操纵性、数学、工具使用和多语言翻译等方面可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型相媲美。

SuperCLUE选取了中文推理相关的核心任务进行了深入测评：

- 在完成SuperCLUE推理任务时，Llama 3.1 405B的整体得分为88.44，超过GPT-4 Turbo，仅次于GPT-4o，暂据排行榜第二。

- Llama 3.1 405B在SC-Math6数学基准上得分91.19分，判定为推理等级5，与GPT-4o相比仅有0.58分的差距，领先其他模型。

- Llama 3.1 405B在SC-Code3代码基准上得分69.68分，接近70分，较GPT-4 Turbo略高（0.11分），与GPT-4o有一定差距（2分）。

（SuperCLUE）

10:46 · 2024年7月23日 · 周二

一个小站的自留地

Meta 将于 7 月 23 日发布 Llama 3-405B 模型据 The Information 报道，Meta 计划于 2024 年 7 月 23 日发布其最大规模的 Llama 3 模型。这一版本拥有 4050 亿个参数，不仅能处理文本，还具备理解和生成图像的多模态能力。（The Information）此前（7 月 1 日）本频曾提到 Meta 正在 WhatsApp 上进行测试 Llama 3-405B 模型，并可能于近期向公众开放。社区普遍认为，根据 Meta 此前提供的模…

据信是 Llama 3-405B 的模型以及基准测试成绩已经被泄露。

网友整理的模型下载地址：
https://x.com/kimmonismus/status/1815314833236984274

从泄露的基准测试成绩来看，Llama 3-405B 模型在大多数方面优于 GPT-4o，这一结果或侧面表面 GPT-4o 模型蒸馏后的模型参数小于这一量级。

据新智元报道，除了最大的405B，Meta这次还升级了5月初发布的8B和70B模型，并将上下文长度全部提升到了128K。
至此，模型版本也正式从Llama 3迭代到了Llama 3.1。

09:56 · 2024年7月21日 · 周日

一个小站的自留地

Windows出现全球大规模蓝屏事件 2024年7月19日,全球多地Windows用户遭遇大规模蓝屏故障,导致银行、航空、媒体等行业业务中断。事件始于日本时间13:30左右,随后迅速蔓延至澳大利亚、欧洲和美国。故障源于网络安全公司CrowdStrike的软件更新问题。受影响的Windows设备启动时会显示蓝屏,并进入恢复模式或重启循环。澳大利亚国家广播公司、联邦银行、澳新银行、Qantas航空等多家企业系统受到影响。英国Sky News一度被迫中断直播。美国多家航空公司,包括Frontier、Uni…

CrowdStrike 故障技术剖析:配置更新中的逻辑错误导致 Windows 蓝屏

2024 年 7 月 19 日,CrowdStrike 发布的一次配置更新引发了全球性故障,导致大量 Windows 设备出现蓝屏。

故障源于 CrowdStrike Falcon 安全软件中的一个名为「通道文件」(Channel File)的配置组件。这些文件位于 Windows 系统的 C:\Windows\System32\drivers\CrowdStrike\ 目录下,文件名以「C-00000291-」开头,以「.sys」结尾。在 7 月 19 日 04:09 UTC 发布的更新中,编号为 291 的通道文件包含了一个逻辑错误,导致运行 CrowdStrike Falcon 软件的 Windows 系统崩溃并出现蓝屏。

CrowdStrike 表示,这次更新原本旨在针对新观察到的恶意命名管道(named pipes)提供保护,这些管道常被用于网络攻击中的命令与控制(C2)框架。然而,配置更新触发了逻辑错误,导致操作系统崩溃。公司强调,这个问题并非由网络攻击引起,而是一个软件缺陷。

受影响的系统主要是运行 CrowdStrike Falcon 7.11 及以上版本的 Windows 设备,且在 7 月 19 日 04:09 UTC 至 05:27 UTC 期间在线并下载了更新配置。CrowdStrike 在发现问题后迅速发布了修复,并在其支持门户和博客上提供了最新的修复建议和信息。

Microsoft 在其博客中补充说明,这个故障影响了约 850 万台 Windows 设备,占全球 Windows 设备总数的不到 1%。尽管比例较小,但由于 CrowdStrike 的客户多为运营关键服务的企业,故障造成了广泛的经济和社会影响。

为了加速修复进程,CrowdStrike 承诺进行彻底的根本原因分析,以确定逻辑错误的发生原因,并改进其流程以防止类似问题再次发生。公司首席执行官 George Kurtz 也在博客中向受影响的客户致歉,并强调将继续改进流程,以增强系统的稳定性和安全性。

（CrowdStrike 官方博客、Microsoft 博客、SC Magazine）

16:03 · 2024年7月19日 · 周五

一个小站的自留地

ChatGPT 出现大规模长时间的全球宕机 OpenAI 的 ChatGPT 目前正在经历全球范围的部分宕机，多个平台的用户报告了问题，包括网页版、移动应用和桌面应用。截至发稿，本次故障已经持续约 4 小时。据 DownDetector 报告，问题始于北京时间 6 月 4 日下午约 14:30。受影响的用户遇到了「500 内部服务器错误」的提示。在宕机报告平台DownDetector 上，世界各地均有故障报告。根据 OpenAI 的状态页面，ChatGPT 正在经历重大宕机，OpenAI 于 6…

Windows出现全球大规模蓝屏事件

2024年7月19日,全球多地Windows用户遭遇大规模蓝屏故障,导致银行、航空、媒体等行业业务中断。事件始于日本时间13:30左右,随后迅速蔓延至澳大利亚、欧洲和美国。故障源于网络安全公司CrowdStrike的软件更新问题。受影响的Windows设备启动时会显示蓝屏,并进入恢复模式或重启循环。

澳大利亚国家广播公司、联邦银行、澳新银行、Qantas航空等多家企业系统受到影响。英国Sky News一度被迫中断直播。美国多家航空公司,包括Frontier、United、Delta和American Airlines被迫取消或延误航班。德国两家医院取消了非紧急手术,以色列有15家大型医院受到影响。阿拉斯加州的多个911紧急呼叫中心也遭受冲击。

CrowdStrike于当日确认问题与"内容部署"有关,并提供了临时解决方案。澳大利亚国家网络安全协调员Michelle McGuinness称,这是第三方软件平台的技术问题,非网络安全事件。澳大利亚政府召开紧急会议应对此次事件,总理安东尼·阿尔巴尼斯表示政府正与国家网络安全协调机关密切合作。

目前,IT专家建议通过安全模式启动并删除C:\Windows\System32\drivers\CrowdStrike目录中的"C-00000291*.sys"文件作为临时解决方案。CrowdStrike首席执行官George Kurtz在接受NBC采访时承认,"有些系统可能需要一段时间才能自动恢复"。据报道,全球超过1000班航班被取消,某些公司有高达70%的笔记本电脑无法启动。

此次事件还影响了克罗地亚的中央健康信息系统和空管系统,以及马来西亚的重要部门,包括电视台、机场和银行。英国杂货店Waitrose短暂停止了非接触式支付。

（综合The Guardian、Windows Latest、BBC News、CNBC、NBC News报道）

——————

Microsoft 365全球服务中断

2024年7月18日21:56(UTC),微软Azure云服务在美国中部地区开始出现故障,随后于7月19日05:56(中国时间)扩展至Microsoft 365应用程序和服务,导致全球范围内的大规模服务中断,影响众多企业用户,其中航空业受创最为严重。

美国多家航空公司受到严重影响。Frontier Airlines一度暂停所有航班,美国联合航空、美国航空和达美航空发布全面停飞指令。欧洲大型航空公司Ryanair报告IT问题影响航班起飞。德国柏林机场、英国爱丁堡机场、荷兰史基浦机场等多个国际机场的登机系统也出现故障。在亚洲,日本春秋航空、韩国济州航空、菲律宾宿雅太平洋航空和亚洲航空均报告系统问题。

此外,伦敦证券交易所报告全球性技术问题,导致新闻无法发布。澳大利亚国民银行、澳新银行、联邦银行、本迪戈银行和新科银行的移动银行应用受到影响。零售业方面,澳大利亚Woolworths和Coles超市的自助结账和在线订单系统无法使用。英国杂货店Waitrose也短暂停止了非接触式支付。

微软表示正在调查原因并采取措施恢复服务。美国联邦航空管理局(FAA)发言人Jeannie Shiffer表示正在密切监控影响美国航空公司IT系统的技术问题。美国交通部长布蒂吉格称,正在监控航班取消和延误情况,要求航空公司履行对乘客的责任。

截至7月19日,微软表示其Azure云服务已恢复正常,但Microsoft 365服务仍有残余影响。

CrowdStrike拥有约24,000名客户,主要为大型企业,此次事件影响的个人电脑数量难以估计,显示了现代社会对云服务和技术平台的高度依赖。

（综合路透社、cnBeta、The Verge、IT之家报道）

08:20 · 2024年7月19日 · 周五

一个小站的自留地

「upcoming-gpt-mini」可能是一个轻量级模型，旨在替代 GPT-3.5 或作为一个设备端模型使

OpenAI 推出新一代小型 AI 模型 GPT-4o mini

OpenAI 于凌晨发布了 GPT-4o mini 模型,旨在取代 GPT-3.5 Turbo 的小型 AI 模型。GPT-4o mini 的主要特点如下:

1. 性能卓越:在多项基准测试中均优于 GPT-3.5 Turbo 和同类小型模型。如在 MMLU 测试中得分 82%,高于 Gemini Flash 的 77.9% 和 Claude Haiku 的 73.8%。在编程能力测试 HumanEval 上,更是以 87.2% 的得分超越了 GPT-4。

2. 价格优势:每百万输入 token 仅需 15 美分,输出 token 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。OpenAI CEO Sam Altman 表示,与 2022 年最先进的 text-davinci-003 模型相比,GPT-4o mini 性能大幅提升,成本降低了 100 倍。（编注：约合输入 1¥/M Token，输出 4.4 ¥/M Token，略高于DeepSeek API 每百万输出 Tokens 2元）

3. 多模态能力:支持文本和图像输入输出,未来将支持音频和视频处理。

4. 长上下文:支持 128K token 的上下文窗口,每个请求最多支持 16K 个输出 token。

5. 安全性提升:采用新的「指令层次结构」方法,提高了抵御越狱和提示注入的能力。

6. 应用广泛:适用于需要低延迟、高频调用的场景,如客户服务聊天机器人等。

7. 即刻可用:从今天起,ChatGPT 的免费、Plus 和 Team 用户均可使用 GPT-4o mini,企业用户下周可用。API 用户立即可用。

尽管 GPT-4o mini 在多项测试中表现出色,但 OpenAI 并未公开其具体参数规模,仅表示与 Llama 3 8b、Claude Haiku 和 Gemini 1.5 Flash 等小型模型处于同一量级。这意味着在某些复杂任务或需要深度推理的场景中,GPT-4o mini 可能无法完全替代 GPT-4 等大型模型。

OpenAI 表示,GPT-4o mini 的发布旨在让更多人负担得起并使用先进的 AI 技术,推动 AI 在更多领域的应用。这一发布也标志着 ChatGPT 正式进入「4」时代,GPT-3.5 或将成为历史。

（OpenAI、TechCrunch、Reuters）

21:17 · 2024年7月18日 · 周四

一个小站的自留地

6 月 22 日，DeepSeek 官网的代码助手上线了代码在线执行功能。用户只需访问 coder.deepseek.com，选择「代码助手 V2」，输入提示词后点击「运行 HTML」，即可在浏览器中直接运行生成的代码。该功能目前支持 HTML、CSS 和 JavaScript，可实现网页设计、经典小游戏、计算器、音乐播放器、数据可视化等多种应用。DeepSeek 表示，目前仅支持 HTML 解释器，未来可能会加入 Python 等其他语言支持。（DeepSeek）

DeepSeek-V2-0628 发布，位列全球开源模型榜首

据深度求索，美国时间 2024年7月16日，LMSYS 组织的大模型竞技场（Chatbot Arena）更新结果发布，DeepSeek-V2-0628 超越 Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B 等开源模型，荣登全球开源模型榜首。（编注：分数位于 Claude 3 Opus 和 GPT-4-1106-Preview 之间）

在Chatbot Arena 的国内参与者中，DeepSeek-V2-0628 同样名列前茅，排名国内所有模型第二位。（编注：国内第一是闭源的零一万物旗舰模型 yi-large）与备受好评的 Qwen2-72B 开源模型相比，DeepSeek-V2-0628展现了更强的竞争力，排名高出 10 名。

据官方介绍， DeepSeek-V2-0628 相较于 0507 开源 Chat 版本，在代码数学推理、指令跟随、角色扮演、JSON Output 等方面能力全面提升。

DeepSeek-V2-0628 模型开源地址：https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat-0628

10:40 · 2024年7月18日 · 周四

一个小站的自留地

新神秘模型现身LMSYS 大模型竞技场近日,AI 爱好者在 LMSYS Chatbot Arena 大模型竞技场上发现了两个新模型,名为"im-also-a-late-june-chatbot"和"late-june-chatbot"。这两个模型仅在平台的随机对战模式中出现,尚未被列入直接聊天的可选列表。多位用户在与模型交互后发现，当被问及身份时，这两个模型均自称是 Google 的 Gemma。考虑到模型的表现和命名方式，社区普遍推测这可能是 Gemma 2 的预览版本。然而，由于模型有时会产生幻觉，这一说法尚未得到确认。…

LMSYS 大模型竞技场再现多个神秘新模型，谷歌 Gemini 2 呼之欲出？

近日，LMSYS Chatbot Arena 大模型竞技场上相继出现多个神秘模型，引发 AI 社区广泛关注和讨论。这些模型目前仅在竞技场的「对战」环节随机出现，包括「upcoming-gpt-mini」、「column-u」、「column-r」、「eureka-chatbot」、「gemini-test」和「im-a-little-birdie」。

据多位用户反馈，「upcoming-gpt-mini」模型自称为 ChatGPT，并表示其创建者为 OpenAI。而「column-u」和「column-r」则拒绝透露任何身份信息。有分析认为，「upcoming-gpt-mini」可能是一个轻量级模型，旨在替代 GPT-3.5 或作为一个设备端模型使用。也有观点认为，该模型是 OpenAI 的下一代开源大模型。（编注：OpenAI 上一次开源大语言模型是 2020 年的 GPT-3）

对于「column-u」和「column-r」，社区观点分歧较大。一些用户认为这两个模型可能来自 Anthropic，是 Claude 3.5 Haiku 和 Opus 的新版本。也有人推测它们可能是 Meta 即将发布的 Llama 3 系列模型，其中「column-r」可能是传闻已久的 405B 参数版本。

然而，更多的证据似乎指向这两个模型可能来自 Cohere 公司。有用户发现，「column-u」和「column-r」对某些越狱提示词（jailbreak prompts）的反应与 Cohere 的 Command 模型相似。此外，这两个模型的命名方式也与 Cohere 的风格相符。

值得注意的是，一位疑似内部人士在社交媒体上透露，「column-u」和「column-r」实际上是 DeepSeek 公司的新模型。但截至发稿时，这一说法尚未得到官方确认。

据用户反馈，「eureka-chatbot」模型的表现与 Llama 3 8b 相似，其输出格式类似于 Gemini 和 Gemma。有趣的是，谷歌员工 Logan Kilpatrick 在社交媒体上暗示有「eureka 时刻」，这一巧合进一步增强了该模型可能来自谷歌的推测。

「gemini-test」的名称则直接暗示了它可能是谷歌 Gemini 系列的测试版本。有报道称，该模型实际上包含两个不同的版本，可能是 Gemini 2.0 的 Flash 和 Pro 版本，或者 Pro 和 Ultra 版本。在竞技场中，该模型会随机分配给用户，这使得准确评估单个模型的性能变得困难。

而「im-a-little-birdie」这个有趣的名称则引发了多种猜测。一些用户认为它可能是 OpenAI 的新模型，因为该公司此前曾使用类似的命名方式。也有人推测它可能是谷歌的另一个测试模型，名称中的「birdie（意为“小鸟”）」暗指 Twitter（现为 X）的标志，又可能与社交媒体 AI 应用相关。

与此同时，关于谷歌可能发布 Gemini 2 的消息也引起了广泛关注。近期，多个搜索引擎（除谷歌外）显示了一条描述：「Gemini 是一系列可以对文本、代码、图像、音频和视频进行推理的 AI 模型。了解 Gemini 1.0、1.5 和 2.0 的最新更新、基准和应用。」这一描述强烈暗示 Gemini 2.0 可能即将发布。

然而，谷歌 AI 团队的一位成员在社交媒体上表示，新的 Gemini 功能可能还需要几个月的时间。这似乎与搜索引擎显示的信息相矛盾。有网友指出，搜索引擎的 SEO 内容并不可信，此前 OpenAI 就出现过内部测试内容错误被搜索引擎抓取导致 GPT-4.5 被报道的乌龙。

以上内容仅为网友讨论摘要，本频无法对上述任何消息进行独立验证。

（综合自 Reddit、Twitter 相关讨论，因来源众多恕不一一标出，敬请读者自行甄别）

22:11 · 2024年7月17日 · 周三

一个小站的自留地

安全研究人员发现,除 polyfill.io 外,此次攻击还波及了 bootcdn.net、bootcss.com、staticfile.net 和 staticfile.org 等多个 CDN 服务。针对这一大规模攻击,多方已采取应对措施: - uBlock 的「Badware risks」过滤器已阻断了这些受影响站点的访问。 - 域名注册商 Namecheap 已关停 polyfill.io 和 polyfill.com 域名。 - Google 开始停止向使用 polyfill.io 的网站投放广告。…

供应链投毒事件新进展:调查曝光背后关联企业网络,爆料者遭威胁

一名博主发文揭露Staticfile、BootCDN和Polyfill等多家知名CDN服务背后可能由同一批关联企业操控。该研究者通过梳理域名备案信息和企业关系,发现这些CDN域名的备案公司可以通过股东或实际控制人关联起来,其中包括运营51[.]La站点统计平台的郑州紫田网络科技有限公司,以及一家名为Funnull的公司。

7月17日,该研究者在技术社区V2EX上发帖称,自从发布相关调查结果后,收到了据称来自相关公司的威胁邮件,要求删除文章。邮件声称「已经联系公安网监部门」。巧合的是,V2EX论坛当天出现无法访问的情况,引发猜测可能与CDN投毒事件曝光有关。

Staticfile是由七牛云原创的开源项目,提供免费CDN加速服务;BootCDN是Bootstrap中文网支持并维护的开源项目,提供前端开源库的CDN服务;Polyfill.io可根据浏览器User-Agent自动生成最小化的polyfill;51[.]La是国内知名的网站统计服务平台。Funnull即为博彩网站提供国内优化CDN服务的方能CDN。

本次事件导致V2EX 被攻击而宕机近 3 小时。据传，发布该文的博主个人博客和V2EX 的源站都收到了相当严重的 DDoS 攻击。

Src: https://t.me/c/1546153250/55215

18:19 · 2024年7月17日 · 周三

一个小站的自留地

关于攻击动机,业内人士提出了与近期实施的省间结算政策相关的推测。这一政策要求运营商对跨省数据传输进行费用结算。

中国移动执行「省间结算」政策，多地 IDC 业务受影响

中国移动近日开始执行「省间结算」政策，对 IDC 等用户实施跨省流量限制。根据流出的通知函，该政策自 2024 年 7 月 1 日起正式执行。通知要求 IDC 用户将内容分发节点带宽的本省流量率调整至 85%。

7 月 17 日起，多个省份的 IDC 商家已出现跨省限速情况。据报道，广东省内各中国移动网络线路 IDC 将执行 3% 的跨省限速比例，超出部分将采取强制丢包等措施。部分用户反映，受影响的 VPN 中转服务速度明显下降。

据悉，此次政策旨在规范 IDC 市场和打击 PCDN。消息称，该政策将有 18 个月的过渡期，期间将逐步提升省间结算价格。部分 IDC 服务商已发布声明，称正与运营商协商解决服务质量下降问题。有分析指出，这一政策可能引发法律争议，部分受影响客户考虑采取法律行动或更换其他运营商服务。

Ref1: https://www.txrjy.com/thread-1339956-1-1.html
Ref2: https://t.me/KuaiCheDao_Info/3210

16:33 · 2024年7月17日 · 周三

一个小站的自留地

通义千问 Qwen2 系列模型开源中国时间 6 月 7 日 0 点，通义千问宣布 Qwen2 系列模型开源，包括 0.5B、1.5B、7B、57B-A14B （使用 Apache 2.0 协议）和 72B （使用 Qianwen License 协议）等多个版本。技术参数方面，Qwen2 系列模型在各个尺寸都使用了 GQA (Generalized Query Attention)，并且除了中英文外，还使用了其他 27 种语言的训练数据。具体上下文处理能力如下： · 72B 和 7B 版本可处理…

阿里云发布新一代音频语言模型Qwen2-Audio

阿里云Qwen团队近日官宣了最新的大规模音频语言模型Qwen2-Audio。该模型在音频理解和交互能力方面取得显著进展，为语音助手、音频内容分析等应用领域开辟了新的可能性。

Qwen2-Audio的主要特点和创新如下：

1. 双模式交互：支持语音聊天和音频分析两种模式。在语音聊天模式下，用户可以直接与模型进行语音对话；在音频分析模式下，用户可以上传音频文件进行转录和分析。模型能够智能识别用户意图，在两种模式间无缝切换，无需用户手动操作。

2. 多样化音频处理能力：
- 语音识别与翻译
- 情感识别：能够识别语音中的愤怒、快乐、悲伤等情绪
- 声音分类
- 音乐分析：可分析音乐的节奏、节拍、类型和流派等特征

3. 复杂场景理解：在包含背景声音、多人对话和语音指令的复杂音频中，模型能准确理解指令并做出恰当响应。

4. 创新的训练方法：
- 预训练阶段使用自然语言提示替代复杂的层次标签，简化流程并扩大数据量
- 采用三阶段训练：预训练、有监督微调和直接偏好优化（DPO）

5. 先进的模型架构：融合了基于Whisper-large-v3的音频编码器和基于Qwen-7B的语言模型，总参数量达8.2B。

在性能评估方面，研究团队在13个数据集上对Qwen2-Audio进行了全面测试，涵盖自动语音识别（ASR）、语音翻译（S2TT）、语音情感识别（SER）和声音分类（VSC）等任务。结果显示，Qwen2-Audio在多项任务上达到了业界领先水平，特别是在AIR-Bench指令跟随能力测试中超越了包括Gemini-1.5-pro在内的其他模型。

值得注意的是，Qwen2-Audio无需针对特定任务进行微调，即可在多种音频理解任务中表现出色。这种通用性使其在实际应用中具有巨大潜力。

阿里云称 Qwen2-Audio 即将开源发布。

（Github 仓库）（技术报告）

11:47 · 2024年7月17日 · 周三

一个小站的自留地

至于 OpenAI, 据路透社报道，OpenAI 正在秘密开发一项代号为「Strawberry」的新 AI 技术，旨在显著提升 AI 模型的推理能力。

OpenAI首席技术官:GPT-5发布或推迟至2025年底

OpenAI首席技术官Mira Murati 六月底在接受采访时表示,备受瞩目的GPT-5模型可能需要约一年半时间才能发布,这意味着其发布时间可能推迟至2025年底或2026年初。这一说法与此前市场预期的2024年夏季发布时间有显著差异。

Murati称,新一代GPT模型将在特定任务上达到「博士级」智能水平。预计GPT-5将在多模态处理和推理能力方面有重大突破。这一延期可能源于技术挑战、质量把控以及安全伦理等多方面考虑。

此番表态或将为AI领域的竞争对手提供更多追赶时间。根据SuperCLUE团队发布的《中文大模型基准测评2024年上半年报告》，国内外模型的差距从2023年5月的30.12%逐步缩小到2024年3月的4.94%。

（indiatoday）

07:59 · 2024年7月17日 · 周三

一个小站的自留地

Anthropic 推出 Claude Projects 功能 Anthropic 刚刚宣布为其 AI 助手 Claude 推出 Projects（项目）功能，旨在提升用户的协作体验和工作效率。该功能现已面向所有 Claude Pro 和 Team 订阅用户开放。 Projects 功能的主要特点如下： 1. 协作空间：为团队成员提供一个共享精选对话和知识的平台。 2. 大容量上下文：每个项目拥有 200K 词元（Token）的上下文窗口。用户可以在其中存储文档、代码和其他数据，以改善 Claude…

Anthropic公司宣布Claude 3.5 Sonnet模型最大输出翻倍

Anthropic公司近日宣布,将旗下Claude 3.5 Sonnet大语言模型的最大输出token数从4096提高到8192。这一更新目前仅面向API用户开放,开发者需要在API调用中添加"anthropic-beta": "max-tokens-3-5-sonnet-2024-07-15"这一header才能启用新功能。

据Anthropic公司开发者关系负责人Alex Albert介绍,这一更新暂时还未在Claude.ai网页版中生效,但公司希望能尽快将其推广到网页版。多位开发者表示,这一更新将对代码生成等需要长文本输出的任务产生重大影响。

另外，Claude 正式上线 Android 客户端，首个版本面向 Android 14 进行开发。

17:03 · 2024年7月16日 · 周二

一个小站的自留地

知名创作者平台「爱发电」疑似因网络攻击而宕机「爱发电」是一个为创作者和粉丝提供打赏通道的平台，长期以来，有非常多个人创作者通过爱发电运营自己的粉丝付费社群。不久前，飞致云旗下的服务器管理面板 1Panel 宣布推出专业版，首批打赏用户可获得 1 折优惠券，可以以 98 元购买原价 980 元的 1Panel 单设备专业版授权。飞致云通过爱发电平台作为收取打赏的渠道，最低门槛为打赏十元，即可获得一张一折券。由于 1Panel 先前的良好口碑，此次活动在建站社群内广泛传播，带动了收款方爱发电的访问量。…

创作者平台「爱发电」域名被锁定,疑似违规乱纪

2024年7月15日,知名内容创作者与粉丝互动平台「爱发电」(afdian.net)突然无法访问,引发用户广泛关注。

经查,爱发电的ICP备案(琼ICP备18001024号-1)已被注销,域名被注册商设置为暂停解析(clientHold)和禁止转移(clientTransferProhibited)。部分用户因DNS缓存仍可访问网站,但大多数用户已无法正常打开。

7月16日凌晨,爱发电官方在微博评论区回应称传闻为「假的」,但未提供进一步解释。同日,官方发布公告承认域名备案确实被注销,称「没有收到任何通知或公示」,并表示正在重新申请备案和准备临时站点。公告强调提现功能正常,用户资金安全。

值得注意的是,爱发电已启用早在2021年注册的备用域名ifdian.net继续运营。这一举动被一些观察者解读为平台「早有准备」。

据网友向新网客服询问，爱发电当前确实处于[clientHold]状态，具体原因为违规乱纪。

据新网客服，「根据海南省公安厅来函要求，网站 afdian.net存在违规行为。经我局调查，该域名在北京新网数码信息技术有限公司注册。根据《互联网信息服务管理办法》和《互联网站管理工作细则》的有关规定，现请北京市通信管理局配合对相关网站进行停止解析禁止转移。」

作为众多个人创作者的重要收入来源,爱发电的稳定运营关乎国内创作生态。本频长期使用爱发电作为打赏渠道，每月提现流程均十分顺利，因此本频猜测爱发电本次事件并非自身资金问题导致。

爱发电投资人之一 @何饭团发文称，「（爱发电）提现没有任何问题，现在的域名在正常提现中。之后的方案，也都能让大家正常提现，请不用担心；域名备案注销的具体原因确实不明，没有事先的通知或公示，注销后也没有任何人联系过我们。网上有一些推测、截图，还请大家不信谣不传谣」。

——————

类似事件此前也曾发生在另一家知名创作者平台面包多身上。2022年10月22日,面包多主域名mianbaoduo.com突然无法访问。官方随后发布声明称,其DNS被暂停解析,原因是网站存在有害内容。

面包多当时表示,他们接到有关部门电话,被告知网站存在有害内容需要删除。虽然面包多照做并提交了整改报告,但最终被告知主域名和子域名均无法解封。为保证服务继续运营,面包多启用了备用域名mbd.pub。

作为一个连接创作者与粉丝的付费平台,爱发电允许多样化的内容形式,包括文字、图片、音频和视频等。这种开放性虽然有利于创作者发挥,但也增加了内容管控的难度。可能有部分创作者在平台上发布了被认定为「有害」的内容,如擦边球内容、敏感话题讨论或未经授权的版权作品等。此前面包多被封禁时，曾经称自己面对的违法内容「鉴别难度是很高的，它不会被任何机器审核接口识别」，因此耗费了平台大量精力进行人工审核，「要求和敏感度需要进行极大的提高」。

面包多创始人事后发文称，「今后的面包多，会从一个敞开双臂欢迎所有创作者的「热」平台，变成一个更加谨慎，以安全和稳定为第一要务的「冷」平台，我们必须做这样的转变」。

Before

After