HyperAIHyperAI

Command Palette

Search for a command to run...

SYSTEM DER DCASE 2021 AUFAGABE 6: AUTOMATISIERTE AUDIO-KAPTIONIERUNG MIT SCHWACH BEWACHSTER VORTRAINIERUNG UND WORTAUSWAHLVERFAHREN

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

Zusammenfassung

Dieser technische Bericht beschreibt das System, das an der Detection and Classification of Acoustic Scenes and Events (DCASE) 2021 Challenge, Aufgabe 6: automatisierte Audio-Kommentierung, teilgenommen hat. Wir verwenden einen Encoder-Decoder-Modellierungsansatz für die Audio-Verständnis- und Caption-Generierung. Unser Lösungsansatz konzentriert sich auf zwei zentrale Probleme der automatisierten Audio-Kommentierung: Datenknappheit und Unbestimmtheit bei der Wortauswahl. Da nur begrenzt Audio-Daten mit goldenen Caption verfügbare sind, sammeln wir eine großskalige, schwach beschriftete Datensammlung aus dem Web mittels heuristischer Methoden. Anschließend prätrainieren wir die Encoder-Decoder-Modelle mit dieser Datensammlung und führen anschließend ein Feinabstimmen auf dem Clotho-Datensatz durch. Um das Problem der Unbestimmtheit bei der Wortauswahl zu lösen, nutzen wir Schlüsselwörter, die aus den Caption ähnlicher Audiodateien extrahiert wurden, sowie Audio-Event-Tags, die von vortrainierten Modellen generiert wurden, um die Wortgenerierung im Dekodierungsstadium zu leiten. Wir testeten unsere Beiträge anhand des Development-Testing-Datensatzes. Unser bester Beitrag erreichte eine SPIDEr-Score von 31,8, während der Score des Baseline-Systems bei 5,4 lag.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp