HyperAI

Démo D'évaluation De L'esthétique Audio d'AudioBox-Aesthetics

1. Introduction au tutoriel

Étoiles GitHub

Audiobox-Aesthetics est un outil d'évaluation de la qualité audio publié par Meta AI (Facebook Research) le 7 février 2025. Basé sur la technologie d'apprentissage profond, l'outil réalise une analyse automatique multidimensionnelle de la parole, de la musique et des sons environnementaux, évalue de manière exhaustive la qualité audio à travers quatre dimensions principales et fournit une analyse quantitative de niveau professionnel pour les créateurs audio, les ingénieurs et les chercheurs.Meta Audiobox Aesthetics : Évaluation automatique unifiée de la qualité de la parole, de la musique et du son".

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples d'effets

Dimensions de l'évaluationillustrer
Qualité de la production (QP)Privilégiez les aspects techniques de la qualité plutôt que la qualité subjective, notamment la clarté audio, la fidélité, la plage dynamique, la fréquence et la spatialisation.
Complexité de production (PC)Se concentrer sur la complexité de la scène audio, mesurée par le nombre de composants audio
Plaisir du contenu (CE)Se concentrer sur la qualité subjective des œuvres audio, couvrant des dimensions ouvertes telles que l'impact émotionnel, les compétences artistiques, l'expression artistique et l'expérience subjective
Utilité du contenu (CU)Évaluer la possibilité de l'audio comme matériau de création de contenu à partir d'une dimension subjective

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface interactive Gradio

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Précautions

  • Pour garantir des performances optimales, nous vous recommandons de télécharger des fichiers audio ≤ 10 Mo et ≤ 60 secondes de durée.
  • Les contenus audio complexes, tels que les symphonies multi-instruments, peuvent nécessiter un temps d’évaluation plus long.
  • Si l’évaluation échoue, vérifiez le format du fichier ou essayez de raccourcir le clip audio.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}