一个小站的自留地
智谱推出 GLM-4.7 模型 智谱(Z.ai)于 12 月 23 日正式发布并开源其最新旗舰模型 GLM-4.7。该模型专为 Agentic Coding 场景优化,引入了增强的「思考模式」(Thinking Mode),包含 Interleaved Thinking、Preserved Thinking 和 Turn-level Thinking 三种机制,以提升复杂指令遵循和长程任务的稳定性。 在 LMArena Code Arena 盲测中,GLM-4.7 位列开源及国内模型首位;部分基准测试(如…
MiniMax 发布 MiniMax-M2.5

2026 年 2 月 12 日,MiniMax 在官网宣布推出 MiniMax-M2.5。官方称,MiniMax-M2.5 经过数十万个真实复杂环境中的大规模强化学习 (Reinforcement Learning, RL) 训练,面向编程、工具调用与搜索、办公等生产力场景,目标是在真实世界任务中提升可交付性与执行效率。

在公开的基准结果中,MiniMax 表示 M2.5 在 SWE-Bench Verified 达到 80.2%,Multi-SWE-Bench 达到 51.3%,BrowseComp 达到 76.3%。编程能力方面,官方强调模型具备「像架构师一样思考和构建」的特征,包括在写代码前先进行功能、结构与用户界面 (User Interface, UI) 的拆解规划,并在超过 10 种语言与多平台全栈工程任务上训练;在不同脚手架的泛化测试中,M2.5 在 Droid 上通过率为 79.7%,在 OpenCode 上通过率为 76.1%。

MiniMax
 
 
Back to Top