HyperAIHyperAI
vor 9 Tagen

SYSTEM DER DCASE 2021 AUFAGABE 6: AUTOMATISIERTE AUDIO-KAPTIONIERUNG MIT SCHWACH BEWACHSTER VORTRAINIERUNG UND WORTAUSWAHLVERFAHREN

{Zhen Yang, Xiang Li, Dong Liu, Qichen Han∗, Weiqiang Yuan ∗}
SYSTEM DER DCASE 2021 AUFAGABE 6: AUTOMATISIERTE AUDIO-KAPTIONIERUNG MIT SCHWACH BEWACHSTER VORTRAINIERUNG UND WORTAUSWAHLVERFAHREN
Abstract

Dieser technische Bericht beschreibt das System, das an der Detection and Classification of Acoustic Scenes and Events (DCASE) 2021 Challenge, Aufgabe 6: automatisierte Audio-Kommentierung, teilgenommen hat. Wir verwenden einen Encoder-Decoder-Modellierungsansatz für die Audio-Verständnis- und Caption-Generierung. Unser Lösungsansatz konzentriert sich auf zwei zentrale Probleme der automatisierten Audio-Kommentierung: Datenknappheit und Unbestimmtheit bei der Wortauswahl. Da nur begrenzt Audio-Daten mit goldenen Caption verfügbare sind, sammeln wir eine großskalige, schwach beschriftete Datensammlung aus dem Web mittels heuristischer Methoden. Anschließend prätrainieren wir die Encoder-Decoder-Modelle mit dieser Datensammlung und führen anschließend ein Feinabstimmen auf dem Clotho-Datensatz durch. Um das Problem der Unbestimmtheit bei der Wortauswahl zu lösen, nutzen wir Schlüsselwörter, die aus den Caption ähnlicher Audiodateien extrahiert wurden, sowie Audio-Event-Tags, die von vortrainierten Modellen generiert wurden, um die Wortgenerierung im Dekodierungsstadium zu leiten. Wir testeten unsere Beiträge anhand des Development-Testing-Datensatzes. Unser bester Beitrag erreichte eine SPIDEr-Score von 31,8, während der Score des Baseline-Systems bei 5,4 lag.