2026 年 2 月 12 日,MiniMax 在官网宣布推出 MiniMax-M2.5。官方称,MiniMax-M2.5 经过数十万个真实复杂环境中的大规模强化学习 (Reinforcement Learning, RL) 训练,面向编程、工具调用与搜索、办公等生产力场景,目标是在真实世界任务中提升可交付性与执行效率。
在公开的基准结果中,MiniMax 表示 M2.5 在 SWE-Bench Verified 达到 80.2%,Multi-SWE-Bench 达到 51.3%,BrowseComp 达到 76.3%。编程能力方面,官方强调模型具备「像架构师一样思考和构建」的特征,包括在写代码前先进行功能、结构与用户界面 (User Interface, UI) 的拆解规划,并在超过 10 种语言与多平台全栈工程任务上训练;在不同脚手架的泛化测试中,M2.5 在 Droid 上通过率为 79.7%,在 OpenCode 上通过率为 76.1%。
(MiniMax)