HyperAIHyperAI

Command Palette

Search for a command to run...

DAS SJTU-SYSTEM FÜR DIE DCASE2021-AUFGABE 6: AUDIO-KAPTIONIERUNG BASIEREND AUF ENCODER-VORTRAINIERUNG UND VERSTÄRKENDEM LERNEN

Kai Yu Mengyue Wu Zeyu Xie Xuenan Xu

Zusammenfassung

Dieser Bericht stellt ein Audio-Captioning-System für die Aufgabe 6 des DCASE 2021-Wettbewerbs zur Detektion und Klassifikation akustischer Szenen und Ereignisse (Detection and Classification of Acoustic Scenes and Events, DCASE) vor. Unser Audio-Captioning-System besteht aus einem 10-Schichten-Convolutional Neural Network (CNN)-Encoder und einem zeitlich aufmerksamkeitsbasierten, einstufigen, gateten rekurrenten neuronalen Netzwerk-Decoder (Temporal Attentional Single-Layer Gated Recurrent Unit, GRU). In diesem Wettbewerb besteht keine Einschränkung hinsichtlich der Verwendung externer Daten oder vortrainierter Modelle. Um die Konzepte in einem Audio-Clip besser zu modellieren, prätrainieren wir den CNN-Encoder mittels Audio-Tagging auf AudioSet. Nach der Standard-Trainingsschritt basierend auf der Kreuzentropie führen wir eine weitere Feinabstimmung des Modells mittels Verstärkungslernen durch, um direkt die Bewertungsmaßzahl zu optimieren. Experimente zeigen, dass unser vorgeschlagenes System eine SPIDEr-Score von 28,6 auf dem öffentlichen Evaluierungsteil ohne Ensembles erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp