HyperAIHyperAI

Command Palette

Search for a command to run...

LE SYSTÈME DE SJTU POUR LE DÉFI DCASE2021 TÂCHE 6 : RÉDACTION DE LÉGENDES AUDIO BASÉE SUR LA PRÉ-ENTRAÎNEMENT DE L'ENCODER ET L'APPRENTISSAGE PAR CONSOLIDATION

Kai Yu Mengyue Wu Zeyu Xie Xuenan Xu

Résumé

Ce rapport propose un système de captioning audio pour la tâche 6 du défi Detection and Classification of Acoustic Scenes and Events (DCASE) 2021. Notre système de captioning audio repose sur un encodeur à réseau de neurones convolutifs (CNN) de 10 couches et un décodeur à unité récurrente à grille à couche unique avec attention temporelle. Dans ce défi, aucune restriction n’est imposée quant à l’utilisation de données externes ou de modèles pré-entraînés. Afin de mieux modéliser les concepts présents dans un extrait audio, nous pré-entraînons l’encodeur CNN à l’aide d’une tâche de tagging audio sur AudioSet. Après une phase d’entraînement classique basée sur l’entropie croisée, nous procédons à un finetuning supplémentaire par apprentissage par renforcement, afin d’optimiser directement le métrique d’évaluation. Les expériences montrent que notre système proposé atteint un score SPIDEr de 28,6 sur le split d’évaluation publique, sans recours à un ensemble de modèles (ensemble).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LE SYSTÈME DE SJTU POUR LE DÉFI DCASE2021 TÂCHE 6 : RÉDACTION DE LÉGENDES AUDIO BASÉE SUR LA PRÉ-ENTRAÎNEMENT DE L'ENCODER ET L'APPRENTISSAGE PAR CONSOLIDATION | Articles | HyperAI