il y a 6 mois

Résumé

Ce rapport technique décrit le système participatif au Défi Detection and Classification of Acoustic Scenes and Events (DCASE) 2021, Tâche 6 : rédaction automatique de légendes audio. Nous adoptons un cadre modélisation encodeur-décodeur pour la compréhension audio et la génération de légendes. Notre approche se concentre sur la résolution de deux problèmes clés dans la rédaction automatique de légendes audio : le manque de données et l’indétermination du choix des mots. Étant donné que le nombre d’audios accompagnés de légendes de référence (« golden captions ») est limité, nous avons collecté un grand ensemble de données étiquetées de manière faible à partir d’internet en utilisant des méthodes heuristiques. Nous pré-entraînons ensuite les modèles encodeur-décodeur sur cet ensemble de données, avant de les ajuster finement sur le jeu de données Clotho. Pour atténuer le problème de l’indétermination du choix des mots, nous utilisons des mots-clés extraits des légendes d’audios similaires ainsi que des étiquettes d’événements audio produites par des modèles pré-entraînés afin de guider la génération des mots lors de la phase de décodage. Nos soumissions ont été évaluées sur le jeu de données de développement-test. La meilleure de nos soumissions a obtenu un score SPIDEr de 31,8, contre seulement 5,4 pour le système de base.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SYSTÈME DE LA TÂCHE 6 DU DCASE 2021 : RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO AVEC PRÉ-ENTRAÎNEMENT FAIBLEMENT SUPÉRVISÉ ET MÉTHODES DE SÉLECTION DE MOTS

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SYSTÈME DE LA TÂCHE 6 DU DCASE 2021 : RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO AVEC PRÉ-ENTRAÎNEMENT FAIBLEMENT SUPÉRVISÉ ET MÉTHODES DE SÉLECTION DE MOTS

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SYSTÈME DE LA TÂCHE 6 DU DCASE 2021 : RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO AVEC PRÉ-ENTRAÎNEMENT FAIBLEMENT SUPÉRVISÉ ET MÉTHODES DE SÉLECTION DE MOTS

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters