一个小站的自留地
腾讯开源大规模 MoE 模型及 3D 生成模型 腾讯在北京举办的混元发布会上宣布开源两款人工智能模型:混元 Large (Hunyuan-Large) 和混元 3D 1.0 (Hunyuan3D-1.0)。 混元 Large 是目前业界最大规模的开源混合专家 (MoE) 大语言模型,总参数量达到 389B,实际激活参数量为 52B。该模型具备 256K 的上下文长度,通过优化的 KV 缓存压缩技术可节省 50% 的 GPU 内存使用。在 MMLU、MMLU-Pro 和 CMMLU 等多个基准测试中,混元…
腾讯发布混元 T1 推理大模型

腾讯于2025年3月21日正式推出混元 T1 推理大模型,这是全球首个基于 Hybrid-Mamba-Transformer 混合专家架构(MoE)的大型推理模型。该模型在保持高质量推理能力的同时,实现了首字 1 秒内响应,生成速度达 60-80 词元/秒,特别适合实时交互场景。

混元 T1 基于此前发布的 TurboS 快速思维基座,通过大规模强化学习进一步强化了纯推理能力。在训练策略上,96.7% 的算力被投入强化学习训练,并采用课程学习策略逐步增加数据难度和上下文长度。

在公开基准测试中,混元 T1 表现突出。在 MATH-500 评测中以 96.2 分接近榜首(DeepSeek-R1 的 97.3 分),在 AIME 2024 测试中更是获得 78.2 分,显著优于 GPT-4.5(36.7 分),展现出在数学逻辑与复杂问题求解方面的优势。不过,该模型在常识推理(GPQA Diamond 69.3 分)方面相对薄弱,低于主流模型均值。

在架构创新方面,混元 T1 通过 Mamba 模块优化了长序列处理能力,其高效计算方式在保证长文本信息捕获的同时,将解码速度提升至同类模型的 2 倍。

价格方面,混元 T1 的 API 服务定价为输入 1 元/百万词元,输出 4 元/百万词元,仅为 DeepSeek R1 的四分之一,是文心大模型 X1 的一半。目前该模型已在腾讯云平台上线,面向开发者提供 API 服务,普通用户可通过腾讯元宝 APP 体验,Hugging Face 平台也提供了 Demo 测试空间。

(综合媒体报道)
 
 
Back to Top