---
license: apache-2.0
language:
- en
- zh
library_name: transformers
pipeline_tag: audio-text-to-text
tags:
- music
- music-understanding
- audio
- audio-language-model
- moss
- moss-music
- lyrics-asr
- music-captioning
- chord-recognition
---
# MOSS-Music
English | 简体中文
**MOSS-Music** 是由 [MOSI.AI](https://mosi.cn/#hero)、[OpenMOSS 团队](https://www.open-moss.com/)
与 [上海创智学院](https://www.sii.edu.cn/) 推出的开源 **音乐理解模型**。
它基于与 [MOSS-Audio](https://github.com/OpenMOSS/MOSS-Audio) 相同的音频 backbone,
在音乐上进行了专门的 **持续预训练** 和 **监督微调**,面向 **音乐描述、歌词 ASR、
结构分析、和弦 / 调式 / 节奏推理以及长时音乐问答** 等任务。本次发布共提供
**两个 8B 模型**:**MOSS-Music-8B-Instruct** 和 **MOSS-Music-8B-Thinking**。
其中 Instruct 版本更适合直接指令跟随,Thinking 版本则具备更强的音乐分析
链式思维推理能力。
## 新闻
* 2026.04.27:🎉🎉🎉 我们已发布 [MOSS-Music](https://huggingface.co/OpenMOSS-Team/MOSS-Music-8B-Instruct)。
* 2026.04.27:🎉🎉🎉 我们已发布用于大规模音乐数据标注与处理的 [MOSS-Music-Data-Pipeline](https://github.com/wx9songs/MOSS-Music-Data-Pipeline)。
## 目录
- [介绍](#介绍)
- [模型架构](#模型架构)
- [DeepStack 跨层特征注入](#deepstack-跨层特征注入)
- [时间感知表示](#时间感知表示)
- [已发布模型](#已发布模型)
- [音乐数据流水线](#音乐数据流水线)
- [评测](#评测)
- [快速开始](#快速开始)
- [环境配置](#环境配置)
- [基础用法](#基础用法)
- [Gradio 应用](#gradio-应用)
- [SGLang 服务](#sglang-服务)
- [更多信息](#更多信息)
- [LICENSE](#license)
- [引用](#引用)
## 介绍
理解音乐并不只是「一段音频 + 一段文字」:它需要模型同时感知和声结构、
节奏、音色、乐器编排、演唱细节以及歌词语义,并在时间维度上进行联合推理。
**MOSS-Music** 的目标就是在单一模型中统一这些能力。
- **歌词 ASR 与时间戳对齐**:抗伴奏的歌唱 ASR,支持句级 / 词级时间戳。
- **音乐描述与标签**:用自然语言刻画情绪、风格、配器、制作风格以及情绪走向。
- **调式 / 节奏 / 和弦推理**:识别调式、节拍、下拍以及和弦进行,支持和弦转录与
带时间戳和弦转录。
- **结构分析**:将歌曲切分为 intro / verse / chorus / bridge / outro,并对
重复与对比段落进行推理。
- **乐器与声音识别**:识别主奏乐器、演唱声部(独唱 / 合唱、性别、音区)等。
- **音乐问答与长时分析**:针对一首完整作品进行开放式问答,Thinking 版本
还支持链式思维推理。
## 模型架构
MOSS-Music 继承了 MOSS-Audio 的模块化设计:音频编码器、模态适配器与大语言模型
三个部分。原始音频首先由 **MOSS-Audio-Encoder** 编码为 **12.5 Hz** 的连续时序
表征,然后通过适配器投影到语言模型的嵌入空间,最终由 LLM 完成自回归文本生成。
我们没有依赖现成的通用音频前端,而是从零训练专用编码器,以获得更鲁棒的
声学表征、更紧密的时间对齐能力,以及在音乐风格、歌唱与非语音内容上的
更好扩展性。
### DeepStack 跨层特征注入
如果仅使用编码器顶层特征,往往会丢失底层韵律、瞬态事件以及局部时频结构。
为了解决这一问题,我们在编码器与语言模型之间采用了受 **DeepStack** 启发的
跨层注入模块:除了编码器最终层输出外,还会选取更早期和中间层特征,分别
进行独立投影,并注入语言模型的前几层,从而保留从低层声学细节到高层语义
抽象的多粒度信息。
这一设计尤其适合音乐理解任务:它有助于保留节奏、音色、瞬态与乐器质感 ——
这些信息无法仅用一个高层表征承载,却对和弦识别、结构分析和细粒度音乐描述
至关重要。
### 时间感知表示
时间是音乐理解中的关键维度。为了增强模型对显式时间位置的感知能力,我们
在预训练阶段采用 **时间标记插入** 策略:按照固定时间间隔,在音频帧表征之间
插入显式时间 token 用于标记时间位置。该设计使模型能够在统一的文本生成
框架中学习「什么发生在什么时候」,从而自然支持带时间戳的歌词 ASR、
节拍 / 下拍定位、段落边界检测以及长歌回溯问答。
在 MOSS-Audio 骨干之上,MOSS-Music 做了:
- **持续预训练**:使用用于大规模音乐数据标注与处理的流水线
[`MOSS-Music-Data-Pipeline`](https://github.com/wx9songs/MOSS-Music-Data-Pipeline)
构建的大规模多样音乐语料,重点覆盖歌唱、歌词及完整歌曲;
- **音乐指令 SFT**:覆盖描述、歌词 ASR、和弦 / 调式 / 结构分析、长时音乐问答;
- **Thinking 版本的推理调优**。
## 已发布模型
| 模型 | 音频编码器 | LLM 骨干 | 总规模 | Hugging Face | ModelScope |
|---|---|---|---:|---|---|
| **MOSS‑Music‑8B‑Instruct** | MOSS-Audio-Encoder | Qwen3-8B | ~9.1B | [](https://huggingface.co/OpenMOSS-Team/MOSS-Music-8B-Instruct) | [](https://modelscope.cn/models/openmoss/MOSS-Music-8B-Instruct) |
| **MOSS‑Music‑8B‑Thinking** | MOSS-Audio-Encoder | Qwen3-8B | ~9.1B | [](https://huggingface.co/OpenMOSS-Team/MOSS-Music-8B-Thinking) | [](https://modelscope.cn/models/openmoss/MOSS-Music-8B-Thinking) |
> 更小规模(4B)及更多变体将后续放出,敬请期待。
## 音乐数据流水线
MOSS-Music 的训练数据由一条端到端的流水线生成:从原始音频直接产出
chat 格式训练样本。该流水线见仓库
[`MOSS-Music-Data-Pipeline`](https://github.com/wx9songs/MOSS-Music-Data-Pipeline),
其中包括时长检测、MIR 特征抽取、歌曲结构切分、歌词 ASR、元数据清洗,
以及基于 ALM 的 caption / query 生成;ALM 侧可对接 Qwen3-Omni、MusicFlamingo
等音频语言模型。
## 评测
我们在一组公开音乐理解基准上评测 MOSS-Music,当前结果如下:
- **音乐 QA 与理解**:**MOSS-Music-8B-Instruct** 在 **8 个公开音乐 QA /
理解基准**上取得 **80.38** 的平均准确率。
- **音乐描述(Music Captioning)**:在当前初步
**GPT-5.4-as-a-Judge** 评测中,MOSS-Music 系列在两个 caption benchmark
上均保持领先,其中 `MOSS-Music-8B-Thinking` 在 `MusicCaps` 上取得
**4.53**,`MOSS-Music-8B-Instruct` 在 `SDD` 上取得 **4.58**。
- **歌词 ASR(歌声场景)**:**MOSS-Music-8B-Thinking** 在
`MUSDB18`、`MIR-1K`、`Opencpop` 三个歌声数据集上取得 **15.88%** 的平均
WER/CER,明显优于包括 `Gemini-3.1-Pro-Preview`、`MusicFlamingo` 与
`Qwen3-Omni` 在内的所有对比 audio-language 模型。详细的歌声时间戳 ASR
结果将在后续版本补充。
- **和弦转录**:MOSS-Music 支持和弦转录与带时间戳和弦转录,可用于和声分析、
伴奏参考以及音乐教学等场景。详细 benchmark 结果将在后续版本补充。
### 音乐 QA 与理解(Accuracy↑)
| 模型 | MMAU-music | MMAU-mini-music | MMAU-Pro-music | MMAR-music | MuChoMusic | Music-AVQA | NSynth (instrument) | NSynth (source) | NSynth (pitch) | GTZAN | Medley-Solos-DB | Avg |
|---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|
| **MOSS‑Music‑8B‑Instruct** | **79.33** | **80.78** | 71.02 | 59.70 | **89.39** | **76.78** | **86.55** | 61.07 | **86.94** | **93.59** | 92.42 | **80.38** |
| Gemini‑3.1‑Pro | 71.69 | 77.18 | **73.06** | **71.64** | 79.53 | 61.51 | 13.38 | 38.90 | 6.47 | 86.39 | 80.34 | 75.17 |
| **MOSS‑Music‑8B‑Thinking** | 74.09 | 77.78 | 67.98 | 50.25 | 82.90 | 68.90 | 56.17 | 57.48 | 77.83 | 84.78 | 87.42 | 74.26 |
| MusicFlamingo | 76.83 | 76.35 | 65.60 | 48.66 | 74.58 | 73.60 | 80.76 | **75.89** | 0.00 | 84.45 | 90.86 | 73.87 |
| Audio‑Flamingo‑Next | 72.39 | 72.07 | 61.64 | 45.27 | 75.62 | 62.94 | 86.40 | 66.73 | 0.05 | 77.68 | 91.47 | 69.89 |
| MiMo‑Audio‑7B‑Instruct | 66.36 | 72.97 | 66.50 | 45.77 | 75.40 | 57.05 | 25.01 | 1.49 | 4.86 | 65.67 | **93.81** | 67.94 |
| Step‑Audio‑R1 | 66.46 | 75.08 | 62.34 | 50.75 | 72.62 | 57.98 | 13.75 | 15.87 | 2.39 | 73.67 | 82.45 | 67.67 |
| Qwen3‑Omni | 65.76 | 68.77 | 66.27 | 48.54 | 78.77 | 56.05 | 30.92 | 44.30 | 28.08 | 80.15 | 69.65 | 66.75 |
| Kimi‑Audio‑7B‑Instruct | 47.95 | 52.25 | 59.10 | 45.27 | 70.18 | 68.90 | 6.01 | 0.81 | 3.88 | 39.54 | 71.98 | 56.90 |
> `Avg` 由 8 个公开音乐 QA / 理解基准计算得到:
> `MMAU-music`、`MMAU-mini-music`、`MMAU-Pro-music`、`MMAR-music`、
> `MuChoMusic`、`Music-AVQA`、`GTZAN` 与 `Medley-Solos-DB`。
>
> 之所以不将 3 个 `NSynth` 子任务并入主平均分,是因为它们更强调短时单音上的
> 细粒度识别能力,包括乐器类别、声源属性(acoustic / electronic)以及精确
> 音高判别。部分对比模型并不是面向这种 note-level classification 设定设计的,
> 因此我们将 NSynth 结果单独保留在表中作为参考,而不混入 headline 平均分。
### 音乐描述(Music Captioning)
我们进一步在 `MusicCaps` 与 `Song Describer Dataset (SDD)` 上进行了
**GPT-5.4-as-a-Judge** 的初步 caption 评测。评分采用 1-5 分制,覆盖以下
9 个维度:`风格/流派`、`情绪/氛围`、`速度/节奏感`、`配器/音色`、`人声相关`、
`旋律/和声`、`结构与段落变化`、`制作与声学质感`、`场景/用途/语义联想`。
- **整体表现**:MOSS-Music 系列在两个 caption benchmark 上均保持领先,其中
`MOSS-Music-8B-Thinking` 在 `MusicCaps` 上取得 **4.53**,而
`MOSS-Music-8B-Instruct` 在 `SDD` 上取得 **4.58**。
- **结构理解优势明显**:在 `Structure / Form / Progression` 维度上,
MOSS-Music 相比基线更强,尤其在 `SDD` 上优势更明显。
- **细粒度配器与场景联想**:`MusicFlamingo` 与 `Gemini-3.1-Pro` 在
`Instrumentation / Timbre` 维度更有竞争力,其中 `Gemini-3.1-Pro`
在 `Scene / Use Case` 维度表现最好。
#### MusicCaps
| 模型 | Genre | Mood | Tempo | Instr. | Vocals | Melody/Harmony | Structure | Production | Scene | Avg |
|---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|
| **MOSS‑Music‑8B‑Thinking** | 4.78 | **4.69** | **4.62** | 4.40 | **4.46** | **4.40** | **4.86** | 4.35 | 4.18 | **4.53** |
| Gemini‑3.1‑Pro | 4.70 | 4.60 | 4.48 | **4.68** | 4.18 | 4.18 | 3.86 | **4.40** | **4.72** | 4.42 |
| **MOSS‑Music‑8B‑Instruct** | 4.60 | 4.52 | 4.46 | 4.02 | 4.30 | 4.38 | 4.78 | 4.20 | 3.96 | 4.36 |
| MusicFlamingo | **4.80** | 4.36 | 4.50 | 4.64 | 3.94 | 4.08 | 3.58 | 4.30 | 3.72 | 4.21 |
| Audio‑Flamingo‑Next | 4.34 | 4.56 | 4.08 | 4.30 | 4.18 | 3.78 | 3.66 | 4.04 | 3.92 | 4.10 |
| MiMo‑Audio‑7B‑Instruct | 4.02 | 4.20 | 4.46 | 4.28 | 4.36 | 3.62 | 3.30 | 4.08 | 3.50 | 3.98 |
| Step‑Audio‑R1 | 4.22 | 4.02 | 4.20 | 3.96 | 3.84 | 4.02 | 3.24 | 4.10 | 3.54 | 3.90 |
| Qwen3‑Omni | 4.58 | 4.50 | 4.26 | 3.62 | 3.64 | 3.48 | 2.98 | 4.18 | 4.42 | 3.96 |
| Kimi‑Audio‑7B‑Instruct | 3.98 | 3.92 | 4.32 | 3.88 | 4.48 | 3.28 | 2.72 | 3.72 | 3.24 | 3.73 |
#### Song Describer Dataset (SDD)
| 模型 | Genre | Mood | Tempo | Instr. | Vocals | Melody/Harmony | Structure | Production | Scene | Avg |
|---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|
| **MOSS‑Music‑8B‑Instruct** | **4.84** | **4.76** | **4.68** | 4.24 | **4.52** | **4.56** | **4.92** | 4.42 | 4.24 | **4.58** |
| Gemini‑3.1‑Pro | 4.72 | 4.64 | 4.52 | **4.72** | 4.22 | 4.24 | 3.94 | **4.46** | **4.82** | 4.48 |
| **MOSS‑Music‑8B‑Thinking** | 4.66 | 4.58 | 4.50 | 4.36 | 4.36 | 4.44 | 4.84 | 4.26 | 4.02 | 4.45 |
| MusicFlamingo | 4.82 | 4.40 | 4.52 | 4.70 | 3.98 | 4.14 | 3.66 | 4.36 | 3.80 | 4.26 |
| Audio‑Flamingo‑Next | 4.40 | 4.62 | 4.14 | 4.36 | 4.22 | 3.84 | 3.74 | 4.10 | 4.00 | 4.16 |
| MiMo‑Audio‑7B‑Instruct | 4.08 | 4.26 | 4.52 | 4.34 | 4.42 | 3.70 | 3.38 | 4.16 | 3.58 | 4.05 |
| Step‑Audio‑R1 | 4.30 | 4.10 | 4.26 | 4.02 | 3.92 | 4.10 | 3.32 | 4.18 | 3.62 | 3.98 |
| Qwen3‑Omni | 4.62 | 4.54 | 4.30 | 3.68 | 3.70 | 3.56 | 3.06 | 4.24 | 4.50 | 4.02 |
| Kimi‑Audio‑7B‑Instruct | 4.04 | 3.98 | 4.38 | 3.96 | 4.54 | 3.36 | 2.80 | 3.80 | 3.32 | 3.80 |
### 歌词 ASR(WER / CER↓)
我们进一步在三个代表性的**歌声歌词 ASR** 基准上评测 MOSS-Music:
- `MUSDB18`:**带伴奏**的英文流行歌曲,以 **WER** 衡量;
- `MIR-1K`:**中文卡拉 OK** 片段,带伴奏,以 **CER** 衡量;
- `Opencpop`:**干净的普通话棚录歌声**,以 **CER** 衡量。
`Avg` 为三个数据集错误率的简单平均。
| 模型 | MUSDB18 WER | MIR-1K CER | Opencpop CER | Avg |
|-----|---:|---:|---:|---:|
| **MOSS‑Music‑8B‑Thinking** | 29.19% | **15.84%** | 2.60% | **15.88%** |
| **MOSS‑Music‑8B‑Instruct** | 32.99% | 23.96% | 4.62% | 20.52% |
| Gemini‑3.1‑Pro‑Preview | 26.25% | 36.37% | 6.00% | 22.87% |
| MusicFlamingo | **23.41%** | 38.98% | 18.73% | 27.04% |
| Qwen3‑Omni‑30B‑A3B‑Instruct | 62.67% | 20.48% | **2.26%** | 28.47% |
| MiMo‑Audio‑7B‑Instruct | 94.16% | 23.34% | 6.77% | 41.42% |
| Kimi‑Audio‑7B‑Instruct | 97.53% | 25.83% | 4.90% | 42.75% |
| Step‑Audio‑R1 | 81.67% | 48.03% | 4.15% | 44.62% |
| Audio‑Flamingo‑Next | 94.93% | 55.63% | 12.47% | 54.34% |
> **MOSS-Music-8B-Thinking** 在三个数据集上取得 **15.88%** 的最优平均错误率,
> 尤其在带伴奏的中文场景 `MIR-1K` 与干净普通话歌声 `Opencpop` 上有显著优势。
> MOSS-Music 还继承了 MOSS-Audio 的时间感知表示能力,歌声时间戳 ASR 的
> 详细结果将在后续版本补充。
### 和弦转录
MOSS-Music 支持和弦转录与带时间戳和弦转录,能够输出随时间变化的和弦进行,
可用于和声分析、伴奏参考、教学标注等任务。相关 benchmark 结果将在后续更新中
补充。
## 快速开始
### 环境配置
我们建议使用 Python 3.12 和 Conda 环境部署。
#### 推荐配置
```bash
git clone https://github.com/OpenMOSS/MOSS-Music.git
cd MOSS-Music
conda create -n moss-music python=3.12 -y
conda activate moss-music
conda install -c conda-forge "ffmpeg=7" -y
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]"
```
#### 可选:FlashAttention 2
如果你的 GPU 支持 FlashAttention 2,可以把最后一条安装命令替换为:
```bash
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"
```
### 基础用法
先下载模型:
```bash
hf download OpenMOSS-Team/MOSS-Music-8B-Instruct --local-dir ./weights/MOSS-Music-8B-Instruct
hf download OpenMOSS-Team/MOSS-Music-8B-Thinking --local-dir ./weights/MOSS-Music-8B-Thinking
```
然后按需修改 `infer.py` 中的 `MODEL_PATH` / `AUDIO_PATH`,并执行:
```bash
python infer.py
```
> [!IMPORTANT]
> 为获得最佳生成质量和整体模型能力,我们**强烈推荐使用 SGLang Serving 进行推理**。
`infer.py` 中默认的 prompt 是
`Please give a detailed musical description of this clip.`。如果你想尝试歌词
转写、和弦 / 调式 / 节奏分析、结构切分或开放式音乐问答,可以直接修改这一行。
常用 prompt 示例:
- `请对这段音乐片段做一个详细的音乐性描述。`
- `请从风格与速度、音色与和声、配器与编排、结构组织以及整体情绪氛围等方面描述这段音乐。`
- `请转录这首歌的歌词。(可以加时间戳)`
- `请转录这段音乐的和弦进行,并带上时间戳,以 JSON 格式输出。`
- `这首曲子的调式、速度和情绪分别是什么?`
- `请将这首歌划分为 verse / chorus / bridge 等段落。`
### Gradio 应用
使用以下命令启动 Gradio Demo:
```bash
python app.py
```
可通过 `MOSS_MUSIC_SERVER_NAME` / `MOSS_MUSIC_SERVER_PORT` 环境变量覆盖
监听地址与端口,并通过 `MOSS_MUSIC_MODEL_ID` 覆盖默认模型。
### SGLang 服务
如果你希望使用 SGLang 部署 MOSS-Music,可参考完整说明文档
`moss_music_usage_guide.md`。
最短的启动方式如下:
```bash
cd sglang
pip install -e "python[all]"
pip install nvidia-cudnn-cu12==9.16.0.29
cd ..
sglang serve \
--model-path ./weights/MOSS-Music-8B-Instruct \
--trust-remote-code
```
如果需要,也可以将 `./weights/MOSS-Music-8B-Instruct` 替换为
`./weights/MOSS-Music-8B-Thinking`。
如果你使用的是默认的 `torch==2.9.1+cu128` 运行时,建议在启动
`sglang serve` 之前先安装 `nvidia-cudnn-cu12==9.16.0.29`。
## 更多信息
- **MOSI.AI**:[https://mosi.cn](https://mosi.cn)
- **OpenMOSS**:[https://www.open-moss.com](https://www.open-moss.com)
- **MOSS-Audio(骨干)**:[https://github.com/OpenMOSS/MOSS-Audio](https://github.com/OpenMOSS/MOSS-Audio)
- **MOSS-Music 数据流水线**:[https://github.com/wx9songs/MOSS-Music-Data-Pipeline](https://github.com/wx9songs/MOSS-Music-Data-Pipeline)
## LICENSE
MOSS-Music 中的模型基于 Apache License 2.0 许可证发布,与 MOSS-Audio 保持一致。
## 引用
```bibtex
@misc{mossmusic2026,
title={MOSS-Music Technical Report},
author={OpenMOSS Team},
year={2026},
howpublished={\url{https://github.com/OpenMOSS/MOSS-Music}},
note={GitHub repository}
}
```