HyperAIHyperAI
vor 18 Tagen

Neuüberlegung von Transfer- und Hilfslernen zur Verbesserung von Audio-Captioning-Transformern

{Sung Won Han, Seungjin Lee, Dongwon Kim, Jin Sob Kim, Hyun Joon Park, WooSeok Shin}
Abstract

Die Leistung automatischer Audio-Kommentierung (Automated Audio Captioning, AAC) konnte durch einen auf Transformers basierenden Encoder und Transfer Learning erheblich verbessert werden. Dennoch sind ihre Leistungssteigerungen durch folgende Probleme eingeschränkt: (1) Diskrepanz der Eingabepatch-Größen zwischen dem Vortrainings- und dem Fine-Tuning-Schritt; (2) Fehlen lokaler Beziehungen zwischen Eingaben und Kommentaren. In diesem Artikel stellen wir einen einfachen Transfer-Learning-Ansatz vor, der im Gegensatz zu früheren Methoden die Eingabepatch-Größen beibehält, um Eingabedisparitäten zu vermeiden. Darüber hinaus schlagen wir einen patch-weisen Keyword-Schätzungszweig vor, der eine Aufmerksamkeits-Pooling-Methode nutzt, um sowohl globale als auch lokale Informationsstrukturen effektiv zu repräsentieren. Die Ergebnisse auf dem AudioCaps-Datensatz zeigen, dass der vorgeschlagene Lernansatz und die Methode erheblich zur Leistungssteigerung beitragen. Schließlich belegen die Visualisierungsergebnisse, dass die vorgeschlagene Aufmerksamkeits-Pooling-Methode effektiv lokale Informationen im AAC-System erfasst.