HyperAIHyperAI
vor 9 Tagen

DAS SJTU-SYSTEM FÜR DIE DCASE2021-AUFGABE 6: AUDIO-KAPTIONIERUNG BASIEREND AUF ENCODER-VORTRAINIERUNG UND VERSTÄRKENDEM LERNEN

{Kai Yu, Mengyue Wu, Zeyu Xie, Xuenan Xu}
DAS SJTU-SYSTEM FÜR DIE DCASE2021-AUFGABE 6: AUDIO-KAPTIONIERUNG BASIEREND AUF ENCODER-VORTRAINIERUNG UND VERSTÄRKENDEM LERNEN
Abstract

Dieser Bericht stellt ein Audio-Captioning-System für die Aufgabe 6 des DCASE 2021-Wettbewerbs zur Detektion und Klassifikation akustischer Szenen und Ereignisse (Detection and Classification of Acoustic Scenes and Events, DCASE) vor. Unser Audio-Captioning-System besteht aus einem 10-Schichten-Convolutional Neural Network (CNN)-Encoder und einem zeitlich aufmerksamkeitsbasierten, einstufigen, gateten rekurrenten neuronalen Netzwerk-Decoder (Temporal Attentional Single-Layer Gated Recurrent Unit, GRU). In diesem Wettbewerb besteht keine Einschränkung hinsichtlich der Verwendung externer Daten oder vortrainierter Modelle. Um die Konzepte in einem Audio-Clip besser zu modellieren, prätrainieren wir den CNN-Encoder mittels Audio-Tagging auf AudioSet. Nach der Standard-Trainingsschritt basierend auf der Kreuzentropie führen wir eine weitere Feinabstimmung des Modells mittels Verstärkungslernen durch, um direkt die Bewertungsmaßzahl zu optimieren. Experimente zeigen, dass unser vorgeschlagenes System eine SPIDEr-Score von 28,6 auf dem öffentlichen Evaluierungsteil ohne Ensembles erreicht.