--- license: apache-2.0 language: - en - zh library_name: transformers pipeline_tag: audio-text-to-text tags: - music - music-understanding - audio - audio-language-model - moss - moss-music - lyrics-asr - music-captioning - chord-recognition --- # MOSS-Music

MOSS-Music logo

English | 简体中文

**MOSS-Music** 是由 [MOSI.AI](https://mosi.cn/#hero)、[OpenMOSS 团队](https://www.open-moss.com/) 与 [上海创智学院](https://www.sii.edu.cn/) 推出的开源 **音乐理解模型**。 它基于与 [MOSS-Audio](https://github.com/OpenMOSS/MOSS-Audio) 相同的音频 backbone, 在音乐上进行了专门的 **持续预训练** 和 **监督微调**,面向 **音乐描述、歌词 ASR、 结构分析、和弦 / 调式 / 节奏推理以及长时音乐问答** 等任务。本次发布共提供 **两个 8B 模型**:**MOSS-Music-8B-Instruct** 和 **MOSS-Music-8B-Thinking**。 其中 Instruct 版本更适合直接指令跟随,Thinking 版本则具备更强的音乐分析 链式思维推理能力。 ## 新闻 * 2026.04.27:🎉🎉🎉 我们已发布 [MOSS-Music](https://huggingface.co/OpenMOSS-Team/MOSS-Music-8B-Instruct)。 * 2026.04.27:🎉🎉🎉 我们已发布用于大规模音乐数据标注与处理的 [MOSS-Music-Data-Pipeline](https://github.com/wx9songs/MOSS-Music-Data-Pipeline)。 ## 目录 - [介绍](#介绍) - [模型架构](#模型架构) - [DeepStack 跨层特征注入](#deepstack-跨层特征注入) - [时间感知表示](#时间感知表示) - [已发布模型](#已发布模型) - [音乐数据流水线](#音乐数据流水线) - [评测](#评测) - [快速开始](#快速开始) - [环境配置](#环境配置) - [基础用法](#基础用法) - [Gradio 应用](#gradio-应用) - [SGLang 服务](#sglang-服务) - [更多信息](#更多信息) - [LICENSE](#license) - [引用](#引用) ## 介绍 理解音乐并不只是「一段音频 + 一段文字」:它需要模型同时感知和声结构、 节奏、音色、乐器编排、演唱细节以及歌词语义,并在时间维度上进行联合推理。 **MOSS-Music** 的目标就是在单一模型中统一这些能力。 - **歌词 ASR 与时间戳对齐**:抗伴奏的歌唱 ASR,支持句级 / 词级时间戳。 - **音乐描述与标签**:用自然语言刻画情绪、风格、配器、制作风格以及情绪走向。 - **调式 / 节奏 / 和弦推理**:识别调式、节拍、下拍以及和弦进行,支持和弦转录与 带时间戳和弦转录。 - **结构分析**:将歌曲切分为 intro / verse / chorus / bridge / outro,并对 重复与对比段落进行推理。 - **乐器与声音识别**:识别主奏乐器、演唱声部(独唱 / 合唱、性别、音区)等。 - **音乐问答与长时分析**:针对一首完整作品进行开放式问答,Thinking 版本 还支持链式思维推理。 ## 模型架构 MOSS-Music 继承了 MOSS-Audio 的模块化设计:音频编码器、模态适配器与大语言模型 三个部分。原始音频首先由 **MOSS-Audio-Encoder** 编码为 **12.5 Hz** 的连续时序 表征,然后通过适配器投影到语言模型的嵌入空间,最终由 LLM 完成自回归文本生成。 我们没有依赖现成的通用音频前端,而是从零训练专用编码器,以获得更鲁棒的 声学表征、更紧密的时间对齐能力,以及在音乐风格、歌唱与非语音内容上的 更好扩展性。 ### DeepStack 跨层特征注入 如果仅使用编码器顶层特征,往往会丢失底层韵律、瞬态事件以及局部时频结构。 为了解决这一问题,我们在编码器与语言模型之间采用了受 **DeepStack** 启发的 跨层注入模块:除了编码器最终层输出外,还会选取更早期和中间层特征,分别 进行独立投影,并注入语言模型的前几层,从而保留从低层声学细节到高层语义 抽象的多粒度信息。 这一设计尤其适合音乐理解任务:它有助于保留节奏、音色、瞬态与乐器质感 —— 这些信息无法仅用一个高层表征承载,却对和弦识别、结构分析和细粒度音乐描述 至关重要。 ### 时间感知表示 时间是音乐理解中的关键维度。为了增强模型对显式时间位置的感知能力,我们 在预训练阶段采用 **时间标记插入** 策略:按照固定时间间隔,在音频帧表征之间 插入显式时间 token 用于标记时间位置。该设计使模型能够在统一的文本生成 框架中学习「什么发生在什么时候」,从而自然支持带时间戳的歌词 ASR、 节拍 / 下拍定位、段落边界检测以及长歌回溯问答。 在 MOSS-Audio 骨干之上,MOSS-Music 做了: - **持续预训练**:使用用于大规模音乐数据标注与处理的流水线 [`MOSS-Music-Data-Pipeline`](https://github.com/wx9songs/MOSS-Music-Data-Pipeline) 构建的大规模多样音乐语料,重点覆盖歌唱、歌词及完整歌曲; - **音乐指令 SFT**:覆盖描述、歌词 ASR、和弦 / 调式 / 结构分析、长时音乐问答; - **Thinking 版本的推理调优**。 ## 已发布模型 | 模型 | 音频编码器 | LLM 骨干 | 总规模 | Hugging Face | ModelScope | |---|---|---|---:|---|---| | **MOSS‑Music‑8B‑Instruct** | MOSS-Audio-Encoder | Qwen3-8B | ~9.1B | [![Hugging Face](https://img.shields.io/badge/Huggingface-Model-orange?logo=huggingface)](https://huggingface.co/OpenMOSS-Team/MOSS-Music-8B-Instruct) | [![ModelScope](https://img.shields.io/badge/ModelScope-Model-624AFF)](https://modelscope.cn/models/openmoss/MOSS-Music-8B-Instruct) | | **MOSS‑Music‑8B‑Thinking** | MOSS-Audio-Encoder | Qwen3-8B | ~9.1B | [![Hugging Face](https://img.shields.io/badge/Huggingface-Model-orange?logo=huggingface)](https://huggingface.co/OpenMOSS-Team/MOSS-Music-8B-Thinking) | [![ModelScope](https://img.shields.io/badge/ModelScope-Model-624AFF)](https://modelscope.cn/models/openmoss/MOSS-Music-8B-Thinking) | > 更小规模(4B)及更多变体将后续放出,敬请期待。 ## 音乐数据流水线 MOSS-Music 的训练数据由一条端到端的流水线生成:从原始音频直接产出 chat 格式训练样本。该流水线见仓库 [`MOSS-Music-Data-Pipeline`](https://github.com/wx9songs/MOSS-Music-Data-Pipeline), 其中包括时长检测、MIR 特征抽取、歌曲结构切分、歌词 ASR、元数据清洗, 以及基于 ALM 的 caption / query 生成;ALM 侧可对接 Qwen3-Omni、MusicFlamingo 等音频语言模型。

## 评测 我们在一组公开音乐理解基准上评测 MOSS-Music,当前结果如下: - **音乐 QA 与理解**:**MOSS-Music-8B-Instruct** 在 **8 个公开音乐 QA / 理解基准**上取得 **80.38** 的平均准确率。 - **音乐描述(Music Captioning)**:在当前初步 **GPT-5.4-as-a-Judge** 评测中,MOSS-Music 系列在两个 caption benchmark 上均保持领先,其中 `MOSS-Music-8B-Thinking` 在 `MusicCaps` 上取得 **4.53**,`MOSS-Music-8B-Instruct` 在 `SDD` 上取得 **4.58**。 - **歌词 ASR(歌声场景)**:**MOSS-Music-8B-Thinking** 在 `MUSDB18`、`MIR-1K`、`Opencpop` 三个歌声数据集上取得 **15.88%** 的平均 WER/CER,明显优于包括 `Gemini-3.1-Pro-Preview`、`MusicFlamingo` 与 `Qwen3-Omni` 在内的所有对比 audio-language 模型。详细的歌声时间戳 ASR 结果将在后续版本补充。 - **和弦转录**:MOSS-Music 支持和弦转录与带时间戳和弦转录,可用于和声分析、 伴奏参考以及音乐教学等场景。详细 benchmark 结果将在后续版本补充。

### 音乐 QA 与理解(Accuracy↑) | 模型 | MMAU-music | MMAU-mini-music | MMAU-Pro-music | MMAR-music | MuChoMusic | Music-AVQA | NSynth (instrument) | NSynth (source) | NSynth (pitch) | GTZAN | Medley-Solos-DB | Avg | |---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:| | **MOSS‑Music‑8B‑Instruct** | **79.33** | **80.78** | 71.02 | 59.70 | **89.39** | **76.78** | **86.55** | 61.07 | **86.94** | **93.59** | 92.42 | **80.38** | | Gemini‑3.1‑Pro | 71.69 | 77.18 | **73.06** | **71.64** | 79.53 | 61.51 | 13.38 | 38.90 | 6.47 | 86.39 | 80.34 | 75.17 | | **MOSS‑Music‑8B‑Thinking** | 74.09 | 77.78 | 67.98 | 50.25 | 82.90 | 68.90 | 56.17 | 57.48 | 77.83 | 84.78 | 87.42 | 74.26 | | MusicFlamingo | 76.83 | 76.35 | 65.60 | 48.66 | 74.58 | 73.60 | 80.76 | **75.89** | 0.00 | 84.45 | 90.86 | 73.87 | | Audio‑Flamingo‑Next | 72.39 | 72.07 | 61.64 | 45.27 | 75.62 | 62.94 | 86.40 | 66.73 | 0.05 | 77.68 | 91.47 | 69.89 | | MiMo‑Audio‑7B‑Instruct | 66.36 | 72.97 | 66.50 | 45.77 | 75.40 | 57.05 | 25.01 | 1.49 | 4.86 | 65.67 | **93.81** | 67.94 | | Step‑Audio‑R1 | 66.46 | 75.08 | 62.34 | 50.75 | 72.62 | 57.98 | 13.75 | 15.87 | 2.39 | 73.67 | 82.45 | 67.67 | | Qwen3‑Omni | 65.76 | 68.77 | 66.27 | 48.54 | 78.77 | 56.05 | 30.92 | 44.30 | 28.08 | 80.15 | 69.65 | 66.75 | | Kimi‑Audio‑7B‑Instruct | 47.95 | 52.25 | 59.10 | 45.27 | 70.18 | 68.90 | 6.01 | 0.81 | 3.88 | 39.54 | 71.98 | 56.90 | > `Avg` 由 8 个公开音乐 QA / 理解基准计算得到: > `MMAU-music`、`MMAU-mini-music`、`MMAU-Pro-music`、`MMAR-music`、 > `MuChoMusic`、`Music-AVQA`、`GTZAN` 与 `Medley-Solos-DB`。 > > 之所以不将 3 个 `NSynth` 子任务并入主平均分,是因为它们更强调短时单音上的 > 细粒度识别能力,包括乐器类别、声源属性(acoustic / electronic)以及精确 > 音高判别。部分对比模型并不是面向这种 note-level classification 设定设计的, > 因此我们将 NSynth 结果单独保留在表中作为参考,而不混入 headline 平均分。 ### 音乐描述(Music Captioning) 我们进一步在 `MusicCaps` 与 `Song Describer Dataset (SDD)` 上进行了 **GPT-5.4-as-a-Judge** 的初步 caption 评测。评分采用 1-5 分制,覆盖以下 9 个维度:`风格/流派`、`情绪/氛围`、`速度/节奏感`、`配器/音色`、`人声相关`、 `旋律/和声`、`结构与段落变化`、`制作与声学质感`、`场景/用途/语义联想`。 - **整体表现**:MOSS-Music 系列在两个 caption benchmark 上均保持领先,其中 `MOSS-Music-8B-Thinking` 在 `MusicCaps` 上取得 **4.53**,而 `MOSS-Music-8B-Instruct` 在 `SDD` 上取得 **4.58**。 - **结构理解优势明显**:在 `Structure / Form / Progression` 维度上, MOSS-Music 相比基线更强,尤其在 `SDD` 上优势更明显。 - **细粒度配器与场景联想**:`MusicFlamingo` 与 `Gemini-3.1-Pro` 在 `Instrumentation / Timbre` 维度更有竞争力,其中 `Gemini-3.1-Pro` 在 `Scene / Use Case` 维度表现最好。 #### MusicCaps | 模型 | Genre | Mood | Tempo | Instr. | Vocals | Melody/Harmony | Structure | Production | Scene | Avg | |---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:| | **MOSS‑Music‑8B‑Thinking** | 4.78 | **4.69** | **4.62** | 4.40 | **4.46** | **4.40** | **4.86** | 4.35 | 4.18 | **4.53** | | Gemini‑3.1‑Pro | 4.70 | 4.60 | 4.48 | **4.68** | 4.18 | 4.18 | 3.86 | **4.40** | **4.72** | 4.42 | | **MOSS‑Music‑8B‑Instruct** | 4.60 | 4.52 | 4.46 | 4.02 | 4.30 | 4.38 | 4.78 | 4.20 | 3.96 | 4.36 | | MusicFlamingo | **4.80** | 4.36 | 4.50 | 4.64 | 3.94 | 4.08 | 3.58 | 4.30 | 3.72 | 4.21 | | Audio‑Flamingo‑Next | 4.34 | 4.56 | 4.08 | 4.30 | 4.18 | 3.78 | 3.66 | 4.04 | 3.92 | 4.10 | | MiMo‑Audio‑7B‑Instruct | 4.02 | 4.20 | 4.46 | 4.28 | 4.36 | 3.62 | 3.30 | 4.08 | 3.50 | 3.98 | | Step‑Audio‑R1 | 4.22 | 4.02 | 4.20 | 3.96 | 3.84 | 4.02 | 3.24 | 4.10 | 3.54 | 3.90 | | Qwen3‑Omni | 4.58 | 4.50 | 4.26 | 3.62 | 3.64 | 3.48 | 2.98 | 4.18 | 4.42 | 3.96 | | Kimi‑Audio‑7B‑Instruct | 3.98 | 3.92 | 4.32 | 3.88 | 4.48 | 3.28 | 2.72 | 3.72 | 3.24 | 3.73 | #### Song Describer Dataset (SDD) | 模型 | Genre | Mood | Tempo | Instr. | Vocals | Melody/Harmony | Structure | Production | Scene | Avg | |---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:| | **MOSS‑Music‑8B‑Instruct** | **4.84** | **4.76** | **4.68** | 4.24 | **4.52** | **4.56** | **4.92** | 4.42 | 4.24 | **4.58** | | Gemini‑3.1‑Pro | 4.72 | 4.64 | 4.52 | **4.72** | 4.22 | 4.24 | 3.94 | **4.46** | **4.82** | 4.48 | | **MOSS‑Music‑8B‑Thinking** | 4.66 | 4.58 | 4.50 | 4.36 | 4.36 | 4.44 | 4.84 | 4.26 | 4.02 | 4.45 | | MusicFlamingo | 4.82 | 4.40 | 4.52 | 4.70 | 3.98 | 4.14 | 3.66 | 4.36 | 3.80 | 4.26 | | Audio‑Flamingo‑Next | 4.40 | 4.62 | 4.14 | 4.36 | 4.22 | 3.84 | 3.74 | 4.10 | 4.00 | 4.16 | | MiMo‑Audio‑7B‑Instruct | 4.08 | 4.26 | 4.52 | 4.34 | 4.42 | 3.70 | 3.38 | 4.16 | 3.58 | 4.05 | | Step‑Audio‑R1 | 4.30 | 4.10 | 4.26 | 4.02 | 3.92 | 4.10 | 3.32 | 4.18 | 3.62 | 3.98 | | Qwen3‑Omni | 4.62 | 4.54 | 4.30 | 3.68 | 3.70 | 3.56 | 3.06 | 4.24 | 4.50 | 4.02 | | Kimi‑Audio‑7B‑Instruct | 4.04 | 3.98 | 4.38 | 3.96 | 4.54 | 3.36 | 2.80 | 3.80 | 3.32 | 3.80 | ### 歌词 ASR(WER / CER↓) 我们进一步在三个代表性的**歌声歌词 ASR** 基准上评测 MOSS-Music: - `MUSDB18`:**带伴奏**的英文流行歌曲,以 **WER** 衡量; - `MIR-1K`:**中文卡拉 OK** 片段,带伴奏,以 **CER** 衡量; - `Opencpop`:**干净的普通话棚录歌声**,以 **CER** 衡量。 `Avg` 为三个数据集错误率的简单平均。 | 模型 | MUSDB18 WER | MIR-1K CER | Opencpop CER | Avg | |-----|---:|---:|---:|---:| | **MOSS‑Music‑8B‑Thinking** | 29.19% | **15.84%** | 2.60% | **15.88%** | | **MOSS‑Music‑8B‑Instruct** | 32.99% | 23.96% | 4.62% | 20.52% | | Gemini‑3.1‑Pro‑Preview | 26.25% | 36.37% | 6.00% | 22.87% | | MusicFlamingo | **23.41%** | 38.98% | 18.73% | 27.04% | | Qwen3‑Omni‑30B‑A3B‑Instruct | 62.67% | 20.48% | **2.26%** | 28.47% | | MiMo‑Audio‑7B‑Instruct | 94.16% | 23.34% | 6.77% | 41.42% | | Kimi‑Audio‑7B‑Instruct | 97.53% | 25.83% | 4.90% | 42.75% | | Step‑Audio‑R1 | 81.67% | 48.03% | 4.15% | 44.62% | | Audio‑Flamingo‑Next | 94.93% | 55.63% | 12.47% | 54.34% | > **MOSS-Music-8B-Thinking** 在三个数据集上取得 **15.88%** 的最优平均错误率, > 尤其在带伴奏的中文场景 `MIR-1K` 与干净普通话歌声 `Opencpop` 上有显著优势。 > MOSS-Music 还继承了 MOSS-Audio 的时间感知表示能力,歌声时间戳 ASR 的 > 详细结果将在后续版本补充。 ### 和弦转录 MOSS-Music 支持和弦转录与带时间戳和弦转录,能够输出随时间变化的和弦进行, 可用于和声分析、伴奏参考、教学标注等任务。相关 benchmark 结果将在后续更新中 补充。 ## 快速开始 ### 环境配置 我们建议使用 Python 3.12 和 Conda 环境部署。 #### 推荐配置 ```bash git clone https://github.com/OpenMOSS/MOSS-Music.git cd MOSS-Music conda create -n moss-music python=3.12 -y conda activate moss-music conda install -c conda-forge "ffmpeg=7" -y pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]" ``` #### 可选:FlashAttention 2 如果你的 GPU 支持 FlashAttention 2,可以把最后一条安装命令替换为: ```bash pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]" ``` ### 基础用法 先下载模型: ```bash hf download OpenMOSS-Team/MOSS-Music-8B-Instruct --local-dir ./weights/MOSS-Music-8B-Instruct hf download OpenMOSS-Team/MOSS-Music-8B-Thinking --local-dir ./weights/MOSS-Music-8B-Thinking ``` 然后按需修改 `infer.py` 中的 `MODEL_PATH` / `AUDIO_PATH`,并执行: ```bash python infer.py ``` > [!IMPORTANT] > 为获得最佳生成质量和整体模型能力,我们**强烈推荐使用 SGLang Serving 进行推理**。 `infer.py` 中默认的 prompt 是 `Please give a detailed musical description of this clip.`。如果你想尝试歌词 转写、和弦 / 调式 / 节奏分析、结构切分或开放式音乐问答,可以直接修改这一行。 常用 prompt 示例: - `请对这段音乐片段做一个详细的音乐性描述。` - `请从风格与速度、音色与和声、配器与编排、结构组织以及整体情绪氛围等方面描述这段音乐。` - `请转录这首歌的歌词。(可以加时间戳)` - `请转录这段音乐的和弦进行,并带上时间戳,以 JSON 格式输出。` - `这首曲子的调式、速度和情绪分别是什么?` - `请将这首歌划分为 verse / chorus / bridge 等段落。` ### Gradio 应用 使用以下命令启动 Gradio Demo: ```bash python app.py ``` 可通过 `MOSS_MUSIC_SERVER_NAME` / `MOSS_MUSIC_SERVER_PORT` 环境变量覆盖 监听地址与端口,并通过 `MOSS_MUSIC_MODEL_ID` 覆盖默认模型。 ### SGLang 服务 如果你希望使用 SGLang 部署 MOSS-Music,可参考完整说明文档 `moss_music_usage_guide.md`。 最短的启动方式如下: ```bash cd sglang pip install -e "python[all]" pip install nvidia-cudnn-cu12==9.16.0.29 cd .. sglang serve \ --model-path ./weights/MOSS-Music-8B-Instruct \ --trust-remote-code ``` 如果需要,也可以将 `./weights/MOSS-Music-8B-Instruct` 替换为 `./weights/MOSS-Music-8B-Thinking`。 如果你使用的是默认的 `torch==2.9.1+cu128` 运行时,建议在启动 `sglang serve` 之前先安装 `nvidia-cudnn-cu12==9.16.0.29`。 ## 更多信息 - **MOSI.AI**:[https://mosi.cn](https://mosi.cn) - **OpenMOSS**:[https://www.open-moss.com](https://www.open-moss.com) - **MOSS-Audio(骨干)**:[https://github.com/OpenMOSS/MOSS-Audio](https://github.com/OpenMOSS/MOSS-Audio) - **MOSS-Music 数据流水线**:[https://github.com/wx9songs/MOSS-Music-Data-Pipeline](https://github.com/wx9songs/MOSS-Music-Data-Pipeline) ## LICENSE MOSS-Music 中的模型基于 Apache License 2.0 许可证发布,与 MOSS-Audio 保持一致。 ## 引用 ```bibtex @misc{mossmusic2026, title={MOSS-Music Technical Report}, author={OpenMOSS Team}, year={2026}, howpublished={\url{https://github.com/OpenMOSS/MOSS-Music}}, note={GitHub repository} } ```