AudioBox-Aesthetics 音频美学评估 Demo
一、教程简介

Audiobox-Aesthetics 是由 Meta AI(Facebook Research)于 2025 年 2 月 7 日发布的音频质量评估工具。该工具基于深度学习技术,实现对语音、音乐和环境声音的多维度自动分析,通过四个核心维度全面评估音频质量,为音频创作者、工程师和研究人员提供专业级的量化分析。相关论文成果为「Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound」。
本教程采用资源为单卡 RTX 4090 。
二、效果示例

评估维度 | 说明 |
---|---|
制作质量(PQ) | 关注质量的技术层面,而非主观质量。包括音频的清晰度、保真度、动态范围、频率及空间化等方面 |
生产复杂度(PC) | 关注音频场景的复杂程度,通过音频组件数量来衡量 |
内容享受度(CE) | 关注音频作品的主观质量,涵盖情感影响、艺术技巧、艺术表达及主观体验等开放维度 |
内容实用性(CU) | 从主观维度评估音频作为内容创作素材的可能性 |
三、运行步骤
1. 启动容器后点击 API 地址即可进入 Gradio 交互界面

2. 进入网页后,即可使用模型
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。
注意事项
- 为确保最佳性能,建议上传 ≤ 10 MB 且时长 ≤ 60 秒的音频文件。
- 复杂音频内容(如多乐器交响乐)可能需要更长评估时间。
- 若评估失败,请检查文件格式或尝试缩短音频片段。

引用信息
本项目引用信息如下:
@article{tjandra2025aes,
title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
year={2025},
url={https://arxiv.org/abs/2502.05139}
}