阿里云 Qwen 团队发布了专注数学领域的大语言模型系列 Qwen2-Math。该系列模型基于 Qwen2 构建,包含 15 亿、70 亿和 720 亿参数三个版本,目前仅支持英文。
Qwen2-Math 在多项数学基准测试中表现出色。其中最大的 Qwen2-Math-72B-Instruct 模型在 Math 基准上的得分达到 84%,超越了 GPT-4o、Claude 3.5 Sonnet 等闭源模型。在 GSM8K 等其他测试中,该模型也取得了领先成绩。
此外,Qwen2-Math 还在 AIME 2024、AMC 2023 等复杂数学竞赛评测中展现了优秀能力。研究团队表示,未来将推出支持中英双语的版本,并进一步增强模型解决高级数学问题的能力。
(QwenLM)