二、效果示例

评估维度	说明
制作质量（PQ）	关注质量的技术层面，而非主观质量。包括音频的清晰度、保真度、动态范围、频率及空间化等方面
生产复杂度（PC）	关注音频场景的复杂程度，通过音频组件数量来衡量
内容享受度（CE）	关注音频作品的主观质量，涵盖情感影响、艺术技巧、艺术表达及主观体验等开放维度
内容实用性（CU）	从主观维度评估音频作为内容创作素材的可能性

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Gradio 交互界面

2. 进入网页后，即可使用模型

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

注意事项

为确保最佳性能，建议上传 ≤ 10 MB 且时长 ≤ 60 秒的音频文件。

复杂音频内容（如多乐器交响乐）可能需要更长评估时间。

若评估失败，请检查文件格式或尝试缩短音频片段。

引用信息

本项目引用信息如下：

@article{tjandra2025aes, title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound}, author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu}, year={2025}, url={https://arxiv.org/abs/2502.05139} }

HyperAI

运行此教程在 Discord 上讨论

日期

7 个月前

大小

27.84 KB

标签

音频识别

许可证

CC BY 4.0

GitHub

facebookresearch/audiobox-aesthetics

论文 URL

2502.05139

一、教程简介

本教程采用资源为单卡 RTX 4090 。

二、效果示例

评估维度	说明
制作质量（PQ）	关注质量的技术层面，而非主观质量。包括音频的清晰度、保真度、动态范围、频率及空间化等方面
生产复杂度（PC）	关注音频场景的复杂程度，通过音频组件数量来衡量
内容享受度（CE）	关注音频作品的主观质量，涵盖情感影响、艺术技巧、艺术表达及主观体验等开放维度
内容实用性（CU）	从主观维度评估音频作为内容创作素材的可能性

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Gradio 交互界面

2. 进入网页后，即可使用模型

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

注意事项

为确保最佳性能，建议上传 ≤ 10 MB 且时长 ≤ 60 秒的音频文件。
复杂音频内容（如多乐器交响乐）可能需要更长评估时间。
若评估失败，请检查文件格式或尝试缩短音频片段。

引用信息

本项目引用信息如下：

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

7 个月前

大小

27.84 KB

标签

音频识别

许可证

CC BY 4.0

GitHub

facebookresearch/audiobox-aesthetics

论文 URL

2502.05139

一、教程简介

本教程采用资源为单卡 RTX 4090 。

二、效果示例

评估维度	说明
制作质量（PQ）	关注质量的技术层面，而非主观质量。包括音频的清晰度、保真度、动态范围、频率及空间化等方面
生产复杂度（PC）	关注音频场景的复杂程度，通过音频组件数量来衡量
内容享受度（CE）	关注音频作品的主观质量，涵盖情感影响、艺术技巧、艺术表达及主观体验等开放维度
内容实用性（CU）	从主观维度评估音频作为内容创作素材的可能性

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Gradio 交互界面

2. 进入网页后，即可使用模型

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

注意事项

为确保最佳性能，建议上传 ≤ 10 MB 且时长 ≤ 60 秒的音频文件。
复杂音频内容（如多乐器交响乐）可能需要更长评估时间。
若评估失败，请检查文件格式或尝试缩短音频片段。

引用信息

本项目引用信息如下：

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

Nemotron-Speech-Streaming-ASR：自动语音识别 Demo

21 天前

TRELLIS.2 3D 生成 Demo

19 天前

OCRFlux-3B：智能文本识别工具包

3 个月前

kyutai-tts-1.6 b-en_fr 音频生成

1 个月前

JarvisArt-Preview 智能照片修饰代理

1 个月前

DiffVox：声音区分效果模型

3 个月前

一键部署 SmolLM3-3B-Model

3 个月前

PaddleOCR-VL：多模态文档解析

3 个月前

SAM3：视觉分割模型

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

AudioBox-Aesthetics 音频美学评估 Demo

一、教程简介

二、效果示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Gradio 交互界面

2. 进入网页后，即可使用模型

注意事项

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

AudioBox-Aesthetics 音频美学评估 Demo

一、教程简介

二、效果示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Gradio 交互界面

2. 进入网页后，即可使用模型

注意事项

引用信息

相关教程

Nemotron-Speech-Streaming-ASR：自动语音识别 Demo

TRELLIS.2 3D 生成 Demo

OCRFlux-3B：智能文本识别工具包

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

DiffVox：声音区分效果模型

一键部署 SmolLM3-3B-Model

PaddleOCR-VL：多模态文档解析

SAM3：视觉分割模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

AudioBox-Aesthetics 音频美学评估 Demo

一、教程简介

二、效果示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Gradio 交互界面

2. 进入网页后，即可使用模型

注意事项

引用信息

相关教程

Nemotron-Speech-Streaming-ASR：自动语音识别 Demo

TRELLIS.2 3D 生成 Demo

OCRFlux-3B：智能文本识别工具包

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

DiffVox：声音区分效果模型

一键部署 SmolLM3-3B-Model

PaddleOCR-VL：多模态文档解析

SAM3：视觉分割模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

Nemotron-Speech-Streaming-ASR：自动语音识别 Demo

TRELLIS.2 3D 生成 Demo

OCRFlux-3B：智能文本识别工具包

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

DiffVox：声音区分效果模型

一键部署 SmolLM3-3B-Model

PaddleOCR-VL：多模态文档解析

SAM3：视觉分割模型

相关教程

Nemotron-Speech-Streaming-ASR：自动语音识别 Demo

TRELLIS.2 3D 生成 Demo

OCRFlux-3B：智能文本识别工具包

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

DiffVox：声音区分效果模型

一键部署 SmolLM3-3B-Model

PaddleOCR-VL：多模态文档解析

SAM3：视觉分割模型