xAI 正式发布新一代大语言模型 Grok 3,该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练,计算量是 Grok 2 的 10 倍,成为目前已知训练算力最大的模型之一。
Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本,均支持推理模式。其中,Grok 3 mini Reasoning 已完成训练,Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。
性能方面,Grok 3 在数学(AIME 2024)、科学(GPQA)和编程(LCB)等多项基准测试中表现出色,超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型;并以 1402 分登顶 LMSYS 榜单,成为首个突破 1400 分的模型。
功能方面,Grok 3 的推出同时包含以下新功能:
- Think 模式:展示完整推理链条
- Big Brain 模式:调用额外算力解决复杂问题
- DeepSearch:实现多源信息交叉验证
价格方面,X平台Premium+订阅费用从22美元大幅上调至40美元,新增的SuperGrok独立订阅服务定价30美元,提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。
语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露,延迟主要源于方言口音识别的准确度问题。
提前获得内测资格的知名AI研究员Karpathy指出,该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平,但在伦理敏感问题上仍显保守,拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型,并持续优化当前系统的逻辑一致性。
(综合量子位、机器之心、CNBC 报道)