一个小站的自留地
通义千问 Qwen2 系列模型开源 中国时间 6 月 7 日 0 点,通义千问宣布 Qwen2 系列模型开源,包括 0.5B、1.5B、7B、57B-A14B (使用 Apache 2.0 协议)和 72B (使用 Qianwen License 协议)等多个版本。 技术参数方面,Qwen2 系列模型在各个尺寸都使用了 GQA (Generalized Query Attention),并且除了中英文外,还使用了其他 27 种语言的训练数据。具体上下文处理能力如下: · 72B 和 7B 版本可处理…
阿里云发布新一代音频语言模型Qwen2-Audio

阿里云Qwen团队近日官宣了最新的大规模音频语言模型Qwen2-Audio。该模型在音频理解和交互能力方面取得显著进展,为语音助手、音频内容分析等应用领域开辟了新的可能性。

Qwen2-Audio的主要特点和创新如下:

1. 双模式交互:支持语音聊天和音频分析两种模式。在语音聊天模式下,用户可以直接与模型进行语音对话;在音频分析模式下,用户可以上传音频文件进行转录和分析。模型能够智能识别用户意图,在两种模式间无缝切换,无需用户手动操作。

2. 多样化音频处理能力:
- 语音识别与翻译
- 情感识别:能够识别语音中的愤怒、快乐、悲伤等情绪
- 声音分类
- 音乐分析:可分析音乐的节奏、节拍、类型和流派等特征

3. 复杂场景理解:在包含背景声音、多人对话和语音指令的复杂音频中,模型能准确理解指令并做出恰当响应。

4. 创新的训练方法:
- 预训练阶段使用自然语言提示替代复杂的层次标签,简化流程并扩大数据量
- 采用三阶段训练:预训练、有监督微调和直接偏好优化(DPO)

5. 先进的模型架构:融合了基于Whisper-large-v3的音频编码器和基于Qwen-7B的语言模型,总参数量达8.2B。

在性能评估方面,研究团队在13个数据集上对Qwen2-Audio进行了全面测试,涵盖自动语音识别(ASR)、语音翻译(S2TT)、语音情感识别(SER)和声音分类(VSC)等任务。结果显示,Qwen2-Audio在多项任务上达到了业界领先水平,特别是在AIR-Bench指令跟随能力测试中超越了包括Gemini-1.5-pro在内的其他模型。

值得注意的是,Qwen2-Audio无需针对特定任务进行微调,即可在多种音频理解任务中表现出色。这种通用性使其在实际应用中具有巨大潜力。

阿里云称 Qwen2-Audio 即将开源发布。

Github 仓库) (技术报告
 
 
Back to Top