Evaluating Multimodal Large Language Models on Core Music Perception Tasks
一、文章主要内容总结
本文聚焦多模态大型语言模型(LLM)的音乐感知能力评估,核心围绕“模型是真正理解音乐结构还是依赖表面特征”展开研究。通过设计三个核心音乐感知任务(切分音评分、移调检测、和弦质量识别),对Gemini 2.5 Pro、Gemini 2.5 Flash和Qwen2.5-Omni三款主流模型进行基准测试,重点探究了三种变量的影响:输入模态(音频vs MIDI符号)、示例暴露量(零样本vs少样本)、推理策略(独立推理、思维链CoT、LogicLM符号推理)。
研究结果显示:
- 模态差异显著:模型在MIDI输入上表现接近满分,展现出强大的符号推理能力;但在音频输入上准确率大幅下降,凸显“从波形中感知音乐结构”是核心瓶颈。
- 推理策略与少样本提示增益有限:LogicLM等结构化推理仅在MIDI模态下略有帮助,少样本示例未带来显著且稳定的性能提升,无法弥补音频感知的缺陷。
- 模型性能分化:Gemini系列模型整体表现最优,Qwen2.5-Omni在多数任务中表现较弱,尤其在LogicLM策略下缺陷更明显。
- 现有模型虽能有效处理音乐符号数据,但缺乏可靠的音频原生处理能力,难以满足真实场景中“聆听音乐并理解结构”的需求。
二、文章创新点
- 任务设计聚焦核心音乐感知:突破现有基准测试中“分类/描述”类任务的局限,针对性设计切分音评分、移调检测、和弦质量识别三大任务,精准探测模型对音乐节奏、旋律轮廓、和声结构的深层理解能力,而非表面光谱特征匹配。
- 分离感知与推理过程:首次将LogicLM框架适配音乐领域,通过“模型生成机器可验证的符号 schema + 确定性求解器执行推理”的流程,避免“正确答案掩盖错误感知分析”的问题,明确区分模型在“感知(解析音频/符号)”和“推理(处理结构关系)”两个环节的表现。
- 系统控制多变量影响:通过因子设计交叉验证输入模态、推理策略、示例暴露量三大变量,量化各因素对模型性能的独立作用,清晰揭示音频感知是当前模型的主要短板。
- 提供可复现的基准与工具:公开实验所用刺激材料(来自MUSE Benchmark)、任务schema、确定性求解器代码(solver.py),为后续音乐感知模型的评估提供标准化框架和可对比的基准。
三、核心部分翻译(Markdown格式)
1. Abstract(摘要)
多模态大型语言模型(LLM)声称具备“音乐理解能力”,但相关评估往往混淆了“聆听音乐”与“读取乐谱”两种能力。本文在三项核心音乐技能(切分音评分、移调检测、和弦质量识别)上,对三款最先进的LLM(Gemini 2.5 Pro、Gemini 2.5 Flash、Qwen2.5-Omni)进行基准测试。此外,我们还分离了三种变异来源:(i)感知限制(音频输入vs MIDI输入)、(ii)示例暴露量(零样本vs少样本操作)、(iii)推理策略(独立推理、思维链CoT、LogicLM)。针对后者,我们将LogicLM——一个结合LLM与符号求解器以执行结构化推理的框架——适配到音乐领域。结果揭示了明显的感知差距:模型在MIDI输入上表现接近满分,但在音频输入上准确率显著下降。推理策略与少样本提示仅带来有限增益:这一结果在MIDI输入上符合预期(性能已达饱和),但在音频输入上令人意外——尽管LogicLM在MIDI输入上准确率近乎完美,在音频输入上仍表现出明显的脆弱性。在所有模型中,Gemini Pro在多数测试条件下实现了最佳性能。总体而言,当前系统能有效对音乐符号(MIDI)进行推理,但尚未能可靠地从音频中“聆听”并理解音乐。我们的方法和数据集明确了感知与推理的边界,为构建稳健的、以音频为核心的音乐系统提供了可操作的指导。
2. Introduction(引言)
Qwen2.5-Omni[1]和Gemini 2.5[2]等多模态基础模型如今声称具备“音乐理解能力”,但其音频处理能力仍缺乏充分表征。尽管AIR-Bench[3]、MMAR[4]、MMAU[5]、MMAU-Pro[6]、CMI-Bench[7]、RUListening[8]和FUTGA-MIR[9]等基准测试通过分类和描述任务评估音乐相关能力,但这些测试无法区分模型是真正感知到音乐结构,还是仅依赖表面的光谱模式。SALMONN[10]、Qwen-Audio[11]和Audio Flamingo 2[12]等音频-语言模型在语音和声音识别任务上表现出色,但尚未在音乐中天然蕴含的“关系属性”(如旋律 intervals、和声结构)上得到测试。这些关系属性相关的能力,对于开发下一代技术(如播放列表推荐/生成[13-16]、音乐偏好建模[17])至关重要。
为填补这一空白,我们测试了三项需要结构理解而非表面识别的基础音乐能力:切分音评分要求模型对节奏预期违背和节拍位移敏感[18,19];移调识别需要模型具备“不受绝对音高影响的旋律识别能力”[20-23]——这是人类在不同调式和音色下识别旋律的核心感知技能[24,25];和弦质量识别则要求模型识别音程模式,而非进行绝对频率匹配。这些任务旨在探测人类音乐认知与感知所特有的结构理解能力,而现有音频基准测试中恰恰缺乏此类评估。
为分离感知与推理过程,我们适配了LogicLM框架[26]:模型作为“感知公式化器”生成机器可验证的符号 schema,再由确定性求解器执行推理,以此提升逻辑推理和问题解决的准确性。该方法可避免“不忠实推理”[26]——即正确答案掩盖有缺陷的感知分析的情况。我们通过对比音频与MIDI处理结果,量化了现有评估中未被关注的“感知瓶颈”。我们的基准测试表明,当前多模态LLM能有效对音乐符号进行推理,但无法可靠地解析音频——这是真实世界音乐应用中的一项根本性局限。
3. Conclusion(结论,注:原文无单独Conclusion章节,核心结论整合自Discussion部分)
我们的研究结果指向一个简单但重要的结论:多模态LLM能有效对符号化音乐数据进行推理,但仍未能可靠地“聆听”音乐。Gemini系列模型在MIDI输入上表现接近满分,且当模型能遵守schema规范时,LogicLM框架能按预期发挥作用。但将输入从MIDI替换为音频后,模型准确率大幅下降——尤其在切分音评分和和弦质量识别任务中,LogicLM策略下的性能下滑最为显著,这表明“转录/起拍检测”和“音高显著性识别”是当前的主要瓶颈。少样本示例仅在“感知校准至关重要”的场景下(如节奏计数)有一定帮助,但思维链(CoT)和LogicLM均无法弥补上游的“听觉识别错误”。
这一差距具有重要意义:人类通过音频体验音乐,而非符号代理。声称“具备音乐理解能力”的模型,必须能像处理文本或视频一样直接处理音频轨道。符号格式(如MIDI)剥离了使音乐产生意义的关键特征(如微时序、演奏技法、表现力细节),因此模型在MIDI上的满分表现不应被误认为是“音频原生能力”。
进一步分析表明,模型的表面成功可能源于浅层启发式,而非真正的聆听能力。例如,在移调检测任务中,Gemini Pro常能保留旋律长度,但未能捕捉音程结构和轮廓;而LogicLM通过强制要求音乐一致性,暴露了这种退化策略——相比之下,独立推理(Standalone)和思维链(CoT)则可能掩盖此类根本性错误。类似现象也出现在音频输入的和弦质量识别任务中:即使不考虑LogicLM的schema负担,模型在相似和弦质量(如大调vs属七和弦)之间仍易混淆,且受声部编排/转位 artifacts影响,导致中等水平的准确率(见表2示例)。
总之,当前多模态LLM具备符号推理能力,但缺乏完全准确的“音频原生能力”——即从音频文件中处理歌曲并回答结构化问题的能力。未来的进展将依赖于更强大的音频前端处理技术,以及将不确定性传递到下游求解器的机制。在当前技术水平下,符号推理层会因微小的感知错误而崩溃。若LLM能获得真正的音乐理解能力,有望成为音乐教育[28]和用户中心型音乐分析工具[16,17]的核心,构建能教授音乐结构、促进用户与个人音乐聆听深度互动的交互式系统。
