马斯克旗下大模型公司xAI开源Grok-1
今天凌晨,埃隆·马斯克(Elon Musk)旗下的大模型公司xAI宣布正式开源其3140亿参数的混合专家(Mixture of Experts, MoE)模型「Grok-1」。
Grok-1 的模型细节包括如下:
据机器之心,Grok-1是基于大量文本数据训练的基础模型,该模型的MoE架构在给定token上的激活权重为25%,且从头开始训练,未使用任何特定应用(如对话)进行微调。
根据推特网友Andrew Kean Gao的分析,Grok-1模型的关键特点如下:
- 模型组成:
- 由8个专家组成的混合模型,其中有2个活跃专家。
- 共拥有860亿激活参数。
- 模型设计:
- 使用Rotary Embeddings而非固定位置嵌入。
- 词汇量大小为131,072,与GPT-4相似。
- 包含64个Transformer层,每一层都有一个解码器层。
- 解码器层包括多头注意力块和密集块。
- 旋转位置嵌入:
- 大小为6144,与输入嵌入大小相同。
- 上下文长度:
- 为8192 tokens。
- 精度:
- 使用bf16精度。
xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目地址为https://github.com/xai-org/grok-1
据特工宇宙,尽管Grok-1的开源在技术社区引起了讨论,但其模型能力本身并没有特别惊艳,无法与GPT-4、Palm-2或Claude3等模型相提并论。文章中提到,Grok-1的开源并没有伴随着特别热血沸腾的宣传,而是以一种幽默的方式进行,马斯克本人似乎也没有非常在意这次开源,同时在一个播客间吹水。
—————
今天凌晨,埃隆·马斯克(Elon Musk)旗下的大模型公司xAI宣布正式开源其3140亿参数的混合专家(Mixture of Experts, MoE)模型「Grok-1」。
Grok-1 的模型细节包括如下:
据机器之心,Grok-1是基于大量文本数据训练的基础模型,该模型的MoE架构在给定token上的激活权重为25%,且从头开始训练,未使用任何特定应用(如对话)进行微调。
根据推特网友Andrew Kean Gao的分析,Grok-1模型的关键特点如下:
- 模型组成:
- 由8个专家组成的混合模型,其中有2个活跃专家。
- 共拥有860亿激活参数。
- 模型设计:
- 使用Rotary Embeddings而非固定位置嵌入。
- 词汇量大小为131,072,与GPT-4相似。
- 包含64个Transformer层,每一层都有一个解码器层。
- 解码器层包括多头注意力块和密集块。
- 旋转位置嵌入:
- 大小为6144,与输入嵌入大小相同。
- 上下文长度:
- 为8192 tokens。
- 精度:
- 使用bf16精度。
xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目地址为https://github.com/xai-org/grok-1
据特工宇宙,尽管Grok-1的开源在技术社区引起了讨论,但其模型能力本身并没有特别惊艳,无法与GPT-4、Palm-2或Claude3等模型相提并论。文章中提到,Grok-1的开源并没有伴随着特别热血沸腾的宣传,而是以一种幽默的方式进行,马斯克本人似乎也没有非常在意这次开源,同时在一个播客间吹水。
—————
可信度:A