HyperAIHyperAI

Command Palette

Search for a command to run...

Neuüberlegung von Transfer- und Hilfslernen zur Verbesserung von Audio-Captioning-Transformern

Sung Won Han Seungjin Lee Dongwon Kim Jin Sob Kim Hyun Joon Park WooSeok Shin

Zusammenfassung

Die Leistung automatischer Audio-Kommentierung (Automated Audio Captioning, AAC) konnte durch einen auf Transformers basierenden Encoder und Transfer Learning erheblich verbessert werden. Dennoch sind ihre Leistungssteigerungen durch folgende Probleme eingeschränkt: (1) Diskrepanz der Eingabepatch-Größen zwischen dem Vortrainings- und dem Fine-Tuning-Schritt; (2) Fehlen lokaler Beziehungen zwischen Eingaben und Kommentaren. In diesem Artikel stellen wir einen einfachen Transfer-Learning-Ansatz vor, der im Gegensatz zu früheren Methoden die Eingabepatch-Größen beibehält, um Eingabedisparitäten zu vermeiden. Darüber hinaus schlagen wir einen patch-weisen Keyword-Schätzungszweig vor, der eine Aufmerksamkeits-Pooling-Methode nutzt, um sowohl globale als auch lokale Informationsstrukturen effektiv zu repräsentieren. Die Ergebnisse auf dem AudioCaps-Datensatz zeigen, dass der vorgeschlagene Lernansatz und die Methode erheblich zur Leistungssteigerung beitragen. Schließlich belegen die Visualisierungsergebnisse, dass die vorgeschlagene Aufmerksamkeits-Pooling-Methode effektiv lokale Informationen im AAC-System erfasst.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp