2. Exemples d'effets

Dimensions de l'évaluation	illustrer
Qualité de la production (QP)	Privilégiez les aspects techniques de la qualité plutôt que la qualité subjective, notamment la clarté audio, la fidélité, la plage dynamique, la fréquence et la spatialisation.
Complexité de production (PC)	Se concentrer sur la complexité de la scène audio, mesurée par le nombre de composants audio
Plaisir du contenu (CE)	Se concentrer sur la qualité subjective des œuvres audio, couvrant des dimensions ouvertes telles que l'impact émotionnel, les compétences artistiques, l'expression artistique et l'expérience subjective
Utilité du contenu (CU)	Évaluer la possibilité de l'audio comme matériau de création de contenu à partir d'une dimension subjective

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface interactive Gradio

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Précautions

Pour garantir des performances optimales, nous vous recommandons de télécharger des fichiers audio ≤ 10 Mo et ≤ 60 secondes de durée.

Les contenus audio complexes, tels que les symphonies multi-instruments, peuvent nécessiter un temps d’évaluation plus long.

Si l’évaluation échoue, vérifiez le format du fichier ou essayez de raccourcir le clip audio.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{tjandra2025aes, title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound}, author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu}, year={2025}, url={https://arxiv.org/abs/2502.05139} }

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 7 mois

Taille

27.84 KB

Balises

Reconnaissance Vocale

Licence

CC BY 4.0

GitHub

facebookresearch/audiobox-aesthetics

URL du document

2502.05139

1. Introduction au tutoriel

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples d'effets

Dimensions de l'évaluation	illustrer
Qualité de la production (QP)	Privilégiez les aspects techniques de la qualité plutôt que la qualité subjective, notamment la clarté audio, la fidélité, la plage dynamique, la fréquence et la spatialisation.
Complexité de production (PC)	Se concentrer sur la complexité de la scène audio, mesurée par le nombre de composants audio
Plaisir du contenu (CE)	Se concentrer sur la qualité subjective des œuvres audio, couvrant des dimensions ouvertes telles que l'impact émotionnel, les compétences artistiques, l'expression artistique et l'expérience subjective
Utilité du contenu (CU)	Évaluer la possibilité de l'audio comme matériau de création de contenu à partir d'une dimension subjective

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface interactive Gradio

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Précautions

Pour garantir des performances optimales, nous vous recommandons de télécharger des fichiers audio ≤ 10 Mo et ≤ 60 secondes de durée.
Les contenus audio complexes, tels que les symphonies multi-instruments, peuvent nécessiter un temps d’évaluation plus long.
Si l’évaluation échoue, vérifiez le format du fichier ou essayez de raccourcir le clip audio.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

Nemotron-Speech-Streaming-ASR : Démonstration De Reconnaissance Vocale Automatique

il y a 21 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 7 mois

Taille

27.84 KB

Balises

Reconnaissance Vocale

Licence

CC BY 4.0

GitHub

facebookresearch/audiobox-aesthetics

URL du document

2502.05139

1. Introduction au tutoriel

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples d'effets

Dimensions de l'évaluation	illustrer
Qualité de la production (QP)	Privilégiez les aspects techniques de la qualité plutôt que la qualité subjective, notamment la clarté audio, la fidélité, la plage dynamique, la fréquence et la spatialisation.
Complexité de production (PC)	Se concentrer sur la complexité de la scène audio, mesurée par le nombre de composants audio
Plaisir du contenu (CE)	Se concentrer sur la qualité subjective des œuvres audio, couvrant des dimensions ouvertes telles que l'impact émotionnel, les compétences artistiques, l'expression artistique et l'expérience subjective
Utilité du contenu (CU)	Évaluer la possibilité de l'audio comme matériau de création de contenu à partir d'une dimension subjective

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface interactive Gradio

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Précautions

Pour garantir des performances optimales, nous vous recommandons de télécharger des fichiers audio ≤ 10 Mo et ≤ 60 secondes de durée.
Les contenus audio complexes, tels que les symphonies multi-instruments, peuvent nécessiter un temps d’évaluation plus long.
Si l’évaluation échoue, vérifiez le format du fichier ou essayez de raccourcir le clip audio.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}

Associé Notebooks

Nemotron-Speech-Streaming-ASR : Démonstration De Reconnaissance Vocale Automatique

il y a 21 jours

Démo De Génération 3D TRELLIS.2

il y a 19 jours

OCRFlux-3B : Boîte À Outils De Reconnaissance De Texte Intelligente

il y a 3 mois

kyutai-tts-1.6 b-en_fr Génération Audio

il y a un mois

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

il y a un mois

DiffVox : Modèle De Différenciation Sonore

il y a 3 mois

Déploiement En Un Clic Du Modèle SmolLM3-3B

il y a 3 mois

PaddleOCR-VL : Analyse De Documents Multimodaux

il y a 3 mois

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

il y a 3 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Démo d'évaluation De l'esthétique Audio d'AudioBox-Aesthetics

1. Introduction au tutoriel

2. Exemples d'effets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface interactive Gradio

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Précautions

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Démo d'évaluation De l'esthétique Audio d'AudioBox-Aesthetics

1. Introduction au tutoriel

2. Exemples d'effets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface interactive Gradio

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Précautions

Informations sur la citation

Associé Notebooks

Nemotron-Speech-Streaming-ASR : Démonstration De Reconnaissance Vocale Automatique

Démo De Génération 3D TRELLIS.2

OCRFlux-3B : Boîte À Outils De Reconnaissance De Texte Intelligente

kyutai-tts-1.6 b-en_fr Génération Audio

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

DiffVox : Modèle De Différenciation Sonore

Déploiement En Un Clic Du Modèle SmolLM3-3B

PaddleOCR-VL : Analyse De Documents Multimodaux

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Démo d'évaluation De l'esthétique Audio d'AudioBox-Aesthetics

1. Introduction au tutoriel

2. Exemples d'effets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface interactive Gradio

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Précautions

Informations sur la citation

Associé Notebooks

Nemotron-Speech-Streaming-ASR : Démonstration De Reconnaissance Vocale Automatique

Démo De Génération 3D TRELLIS.2

OCRFlux-3B : Boîte À Outils De Reconnaissance De Texte Intelligente

kyutai-tts-1.6 b-en_fr Génération Audio

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

DiffVox : Modèle De Différenciation Sonore

Déploiement En Un Clic Du Modèle SmolLM3-3B

PaddleOCR-VL : Analyse De Documents Multimodaux

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Notebooks

Nemotron-Speech-Streaming-ASR : Démonstration De Reconnaissance Vocale Automatique

Démo De Génération 3D TRELLIS.2

OCRFlux-3B : Boîte À Outils De Reconnaissance De Texte Intelligente

kyutai-tts-1.6 b-en_fr Génération Audio

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

DiffVox : Modèle De Différenciation Sonore

Déploiement En Un Clic Du Modèle SmolLM3-3B

PaddleOCR-VL : Analyse De Documents Multimodaux

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

Associé Notebooks

Nemotron-Speech-Streaming-ASR : Démonstration De Reconnaissance Vocale Automatique

Démo De Génération 3D TRELLIS.2

OCRFlux-3B : Boîte À Outils De Reconnaissance De Texte Intelligente

kyutai-tts-1.6 b-en_fr Génération Audio

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

DiffVox : Modèle De Différenciation Sonore

Déploiement En Un Clic Du Modèle SmolLM3-3B

PaddleOCR-VL : Analyse De Documents Multimodaux

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D