马斯克旗下大模型公司xAI开源Grok-1今天凌晨，埃隆·马斯克（Elon Musk）旗下的大模型公司xAI宣布正式开源其3140亿参数的混合专家（Mixture of Experts, MoE）模型「Grok-1」

马斯克旗下大模型公司xAI开源Grok-1

今天凌晨，埃隆·马斯克（Elon Musk）旗下的大模型公司xAI宣布正式开源其3140亿参数的混合专家（Mixture of Experts, MoE）模型「Grok-1」。
Grok-1 的模型细节包括如下：

据机器之心，Grok-1是基于大量文本数据训练的基础模型，该模型的MoE架构在给定token上的激活权重为25%，且从头开始训练，未使用任何特定应用（如对话）进行微调。

根据推特网友Andrew Kean Gao的分析，Grok-1模型的关键特点如下：

- 模型组成：
- 由8个专家组成的混合模型，其中有2个活跃专家。
- 共拥有860亿激活参数。

- 模型设计：
- 使用Rotary Embeddings而非固定位置嵌入。
- 词汇量大小为131,072，与GPT-4相似。
- 包含64个Transformer层，每一层都有一个解码器层。
- 解码器层包括多头注意力块和密集块。

- 旋转位置嵌入：
- 大小为6144，与输入嵌入大小相同。

- 上下文长度：
- 为8192 tokens。

- 精度：
- 使用bf16精度。

xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件，无论是个人还是商业用途。项目地址为https://github.com/xai-org/grok-1

据特工宇宙，尽管Grok-1的开源在技术社区引起了讨论，但其模型能力本身并没有特别惊艳，无法与GPT-4、Palm-2或Claude3等模型相提并论。文章中提到，Grok-1的开源并没有伴随着特别热血沸腾的宣传，而是以一种幽默的方式进行，马斯克本人似乎也没有非常在意这次开源，同时在一个播客间吹水。

—————

可信度：A