AudioBox-Aesthetics Audio-Ästhetik-Evaluierungsdemo
1. Einführung in das Tutorial

Audiobox-Aesthetics ist ein Tool zur Bewertung der Audioqualität, das am 7. Februar 2025 von Meta AI (Facebook Research) veröffentlicht wurde. Basierend auf Deep-Learning-Technologie ermöglicht das Tool eine mehrdimensionale automatische Analyse von Sprache, Musik und Umgebungsgeräuschen, bewertet die Audioqualität umfassend anhand von vier Kerndimensionen und bietet quantitative Analysen auf professionellem Niveau für Audiokünstler, Ingenieure und Forscher.Meta Audiobox Aesthetics: Einheitliche automatische Qualitätsbewertung für Sprache, Musik und Ton".
Dieses Tutorial verwendet Ressourcen für eine einzelne RTX 4090-Karte.
2. Effektbeispiele

Bewertungsdimensionen | veranschaulichen |
---|---|
Produktionsqualität (PQ) | Konzentrieren Sie sich auf die technischen Aspekte der Qualität und nicht auf die subjektive Qualität. Dazu gehören Klangklarheit, Wiedergabetreue, Dynamikumfang, Frequenz und Räumlichkeit. |
Produktionskomplexität (PC) | Konzentrieren Sie sich auf die Komplexität der Audioszene, gemessen an der Anzahl der Audiokomponenten |
Inhaltsgenuss (CE) | Fokus auf die subjektive Qualität von Audiowerken, die offene Dimensionen wie emotionale Wirkung, künstlerische Fähigkeiten, künstlerischen Ausdruck und subjektives Erleben abdeckt |
Inhaltsnutzen (CU) | Bewerten Sie die Möglichkeit von Audio als Material für die Inhaltserstellung aus einer subjektiven Dimension |
3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die interaktive Gradio-Oberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.
Vorsichtsmaßnahmen
- Um eine optimale Leistung zu gewährleisten, empfehlen wir, Audiodateien mit einer Größe von ≤ 10 MB und einer Länge von ≤ 60 Sekunden hochzuladen.
- Komplexe Audioinhalte, wie etwa Symphonien mit mehreren Instrumenten, können eine längere Auswertungszeit erfordern.
- Wenn die Auswertung fehlschlägt, überprüfen Sie das Dateiformat oder versuchen Sie, den Audioclip zu kürzen.

Zitationsinformationen
Die Zitationsinformationen für dieses Projekt lauten wie folgt:
@article{tjandra2025aes,
title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
year={2025},
url={https://arxiv.org/abs/2502.05139}
}