Command Palette
Search for a command to run...
MMAE:一个大规模多任务音频编辑基准
MMAE:一个大规模多任务音频编辑基准
摘要
本文推出MMAE(大规模多任务音频编辑基准),这是首个专为通用指令驱动音频编辑设计的综合性评估测试平台。在向智能创作转型的推动下,交互式编辑已从视觉领域迅速扩展至音频领域,该领域此前已由Nano-banana 2(图像)和Gemini-Omni(视频)等模型率先探索。然而,当前的评估基础设施严重滞后,仍高度碎片化,且仅限于特定子领域或基础操作。与现有范围受限的基准不同,MMAE覆盖广泛的现实场景,包含7种不同的音频模态,如声音、语音、音乐及其混合体。此外,我们构建了一个全面的分类体系,涵盖6级任务复杂度(从基础修改到多跳推理与多轮编辑)、2级粒度以及8种不同的操作类型。通过人类与agent协作精心构建,MMAE包含2,000个高保真样本,并配套开创性的基于量规的评估框架。通过将自由形式任务分解为17,741项可验证标准,该稳健的基于量规的范式能够对指令遵循与上下文一致性进行精确的多维度评估。我们对主流模型进行的广泛评估表明,当前系统距离实现可靠的编辑仍有显著差距。值得注意的是,精确匹配率(EMR)始终低于5%,在复杂的多模态混合任务中更是骤降至绝对的0%,暴露出精确执行与结构鲁棒性方面的关键瓶颈。我们希望MMAE能成为智能创作社区未来发展的催化剂,提供清晰的诊断路线图,并为下一代音频编辑系统建立标准化、持久的评估范式。
一句话总结
本文介绍了MMAE,这是一个大规模多任务音频编辑基准,旨在通过建立涵盖七种音频模态和六个复杂度级别的综合分类体系,解决现有评估碎片化的问题。该基准采用基于评分标准(rubric)的框架,将2,000个精心筛选的样本分解为17,741项可验证标准,以精确评估通用音频编辑模型在指令遵循和上下文一致性方面的表现。
核心贡献
- 提出MMAE,这是一个面向指令驱动音频编辑的综合基准,涵盖7种独立模态和8个操作类别,跨越多个复杂度级别。该数据集通过human-Agent协作流水线精心构建,包含2,000个高保真样本,旨在评估真实世界的编辑场景。
- 建立一种新颖的基于评分标准的评估框架,将自由形式的编辑指令分解为17,741项可验证标准。该结构化范式能够精确、多维度地评估指令遵循能力和声学上下文一致性,从而最大化诊断可靠性。
- 评估5款最先进的音频编辑模型,揭示现有系统在上下文保持和结构鲁棒性方面存在困难,精确匹配率持续低于5%。详细分析指出了模型理解与生成环节的关键瓶颈,且随着任务复杂度增加,这些瓶颈愈发显著。
引言
基于指令的音频编辑已迅速发展成为一种实用的创作工具,使用户能够通过自然语言命令操作语音、音乐和音效。尽管取得这一进展,该领域仍面临严峻的评估缺口,因为现有基准测试仍局限于狭窄领域,且依赖粗糙的指标,无法准确评估复杂且开放的编辑工作流。为弥合这一差距,本文提出MMAE,这是一个旨在严格评估通用音频编辑模型的综合基准。研究团队利用一个精心构建的数据集,涵盖七种音频模态和六个任务复杂度级别,并结合一种新颖的基于评分标准的评估范式,将自由形式的指令拆解为结构化、可验证的标准。该框架提供细粒度、多维度的评分,能够可靠地诊断模型能力,为推进下一代交互式音频系统的发展奠定标准化基础。
数据集
-
数据集构成与来源 本文提出MMAE,该基准包含从在线视频中收集的2,000个高保真音频样本。每个样本均配有开放式自然语言指令以及超过17,741项细粒度评估标准。数据集涵盖七种独立的音频模态,包括音效、音乐、语音及其各种组合。
-
关键细节与分类体系拆解 为确保全面覆盖,数据集按三个正交维度进行组织。模态维度涵盖上述七种音频类型。复杂度维度将任务划分为六个级别,从基础单步操作延伸至多跳推理与多轮迭代编辑。操作维度按粒度将编辑分类为针对特定片段的局部修改和影响整首音轨的全局调整。研究团队采用动态平衡策略,以维持这些分类维度间的均匀分布。统计数据显示,每个样本平均时长为14.46秒,包含1.22个编辑操作,并由14个词的指令引导。标准库平均每个样本包含8.87项标准,分为指令遵循和一致性检查两部分。
-
基准测试用途与评估策略 与训练语料不同,MMAE专用于评估。研究团队使用该数据集评估最先进的音频编辑模型的指令遵循准确率与上下文保持能力。该基准摒弃传统的信号级指标,转而采用基于评分标准的评估框架。每个样本均由作为裁判的外部音频语言模型进行打分,从验证精确执行和背景保持的原子化多项选择标准中选出正确选项。
-
处理、裁剪与元数据构建 原始音频从在线视频中手动采集,并裁剪为聚焦的输入片段。研究团队将所有标注结构化为JSON对象,包含标识符、分类标签、操作详情、用户提示词和描述性标签。数据构建遵循五阶段流水线,从专家头脑风暴与分类体系设计开始,进入以指令为核心的数据收集,随后推进至human-Agent协作的标准生成。一个Agent系统提取详细的音频描述,输入至LLM进行初始标准起草,再由人工标注员进行细化。研究团队通过盲审交叉复核协议实施严格的质量控制,对未通过验收标准的样本进行迭代修改或直接剔除。
方法
研究团队利用多阶段流水线构建并评估音频操作任务,流程从头脑风暴开始,最终完成质量保证。该过程始于创意生成,在此阶段探索多样化的音频操作概念,例如背景音乐提取、语音增强和音效替换。随后进入分类体系与范式构建阶段,将收集到的创意按照模态、操作、复杂度、维度和指标等关键属性组织成结构化框架。如图所示,该结构化分类体系使任务能够按不同范式进行系统分类。
该框架随后进入以指令为核心的数据收集阶段,在此阶段筛选并处理语音、音效和音乐等源媒体。原始音视频输入经过裁剪与标注,生成结构化数据。该数据随后用于生成定义具体音频操作任务的指令,例如调整说话人顺序、修改声学属性或在背景噪声中增强语音。每个任务均标注有指导评估的标准,以确保对生成输出质量评估的一致性。
数据收集流程包含标准标注阶段,原始元数据通过自动描述生成与人工校对进行细化。该阶段产出高质量且附带标准库的指令,适用于评估。最终阶段为质量检查,原始数据由人工标注员进行交叉验证。未达质量标准的样本将被剔除,而通过的样本则准备用于下游任务。这一严谨的流水线确保生成的音频操作任务定义清晰、保持一致,且适合大型语言模型进行评估。
实验
本研究在MMAE基准上评估了五款最新的端到端音频编辑模型,采用基于LLM的裁判机制与参考基线,以评估指令遵循、内容一致性与精确匹配率。实验表明,当前系统在复杂及多模态混合任务上表现吃力,揭示了执行精确修改与保留原始音频之间存在根本性的权衡。此外,平均性能得分并不能保证完美执行,且由于级联的理解与生成错误,外部规划机制带来的改进十分有限。这些发现表明,尽管基础编辑能力已经具备,但实现可靠的音频操作需要更强大的基础模型,而非依赖高层任务分解。
研究团队在MMAE基准上评估了多款音频编辑模型,重点关注指令遵循、一致性与精确匹配率。结果显示,所有模型在复杂和多模态混合任务上均表现不佳,在指令遵循与内容保持之间呈现权衡态势,且无一模型能达到较高的精确匹配率。表现最佳的模型在单模态任务中展现出较强的指令遵循能力和一致性,但在大多数情况下仍无法实现完美编辑。所有模型在从单复杂度任务过渡到多复杂度任务时均出现性能下降,其中多模态编辑尤为困难。基线与评估模型均明确显示出指令遵循与一致性之间的权衡关系。最佳模型在指令遵循和一致性上获得较高的平均得分,但精确匹配率依然较低,表明部分成功与完美执行之间仍存在差距。
研究团队在MMAE基准上评估了多款音频编辑模型,对比了它们在不同模态与任务复杂度下的性能。结果表明,所有模型在混合模态任务上均面临挑战,并在指令遵循与一致性之间呈现权衡,多数模型的精确匹配率较低。表现最佳的模型在音效、音乐和语音领域展现出不同的优势,但使用外部规划器并未始终提升整体性能。与单模态编辑相比,所有模型在混合模态任务上的性能均出现显著下降。指令遵循与一致性之间存在权衡,参考基线凸显了同时兼顾两者的难度。各模态性能表现不一,语音编辑的一致性得分通常高于音效与音乐编辑。
研究团队在评估指令遵循、一致性与精确匹配率的基准上测试了多款音频编辑模型。结果显示,所有模型在复杂及混合模态任务上均表现吃力,在指令遵循与内容保持之间呈现权衡,极少模型能够实现完美编辑。平均能力与完美执行率之间的性能差距表明,模型往往只能取得部分进展,而非完全满足所有要求。所有模型在复杂和混合模态任务上均出现显著的性能衰退,表明其在多域编辑方面的结构鲁棒性有限。指令遵循与一致性之间存在明显的权衡,在某一维度表现优异的模型往往在另一维度表现不佳,凸显了平衡精确修改与内容保持的难度。平均性能指标与精确匹配率并不吻合,揭示出模型可能具备广泛的能力,但频繁无法生成完美编辑结果,这表明通用能力与整体可靠性之间仍存在差距。
研究团队在涵盖不同模态与复杂度级别、用于评估指令遵循、一致性与精确匹配率的基准上测试了多款音频编辑模型。结果表明,所有模型在混合模态任务上均表现不佳,在遵循指令与保持内容之间呈现权衡,且无一模型能达到较高的精确匹配率。性能因任务类型而异,使用外部规划器并未始终带来改善。与单模态任务相比,所有模型在混合模态任务上的表现显著更差。指令遵循与一致性之间存在明确权衡,在某一维度表现突出的模型往往在另一维度表现不足。外部规划器的使用未能带来稳定提升,因为它在略微提高指令遵循率的同时,可能会降低音频一致性。
研究团队在MMAE基准上评估了多款音频编辑模型,考察其在不同任务复杂度与模态下遵循指令并保持一致性的能力。结果表明,所有模型在实现完美编辑方面均面临挑战,精确匹配率较低,且在指令遵循与一致性之间存在权衡,性能在混合模态与复杂任务中显著下降。所有模型在从单一任务类别转向多类别任务时均出现显著性能衰退,表明其在复杂编辑场景中面临困难。指令遵循与一致性之间存在明确权衡,遵循指令能力较强的模型往往难以保持内容,反之亦然。混合模态任务的性能始终低于单模态设置,其中音效-音乐-语音组合任务对所有模型而言最为困难。
研究团队在MMAE基准上评估了多款音频编辑模型,以考察其在不同任务复杂度与模态下的指令遵循、内容一致性及精确匹配率。结果揭示,遵循提示词与保持音频完整性之间存在持续的权衡,所有模型在混合模态与复杂任务上的性能均出现显著衰退。尽管部分模型展现出局部成功,但持续偏低的精确匹配率凸显了通用能力与完美执行之间的巨大差距。最终,这些发现强调了当前在多域结构鲁棒性方面的局限性,并表明外部规划机制无法可靠地提升整体编辑效果。