AUTOMATISCHE AUDIO-KAPTIONIERUNG DURCH FEINABSTIMMUNG VON BART MIT AUDIOSET-TAGS

Automatisierte Audio-Kommentierung ist die multimodale Aufgabe, Umgebungs-Audioaufnahmen mit fließendem natürlichen Sprachtext zu beschreiben. Die meisten aktuellen Methoden nutzen vortrainierte Analysemodelle, um relevante semantische Inhalte aus dem Audioeingang zu extrahieren. Allerdings wird vorherige Information über Sprachmodellierung selten berücksichtigt, und die entsprechenden Architekturen sind aufgrund von Datenknappheit in ihrer Kapazität eingeschränkt. In diesem Paper stellen wir eine Methode vor, die die sprachliche Information nutzt, die in BART, einem großskaligen bedingten Sprachmodell mit allgemeiner Vortrainierung, enthalten ist. Die Textgenerierung wird auf Sequenzen von textuellen AudioSet-Tags bedingt. Dieser Eingabedatenstrom wird durch zeitlich synchronisierte Audio-Embeddings ergänzt, was dem Modell ermöglicht, die Erkennung von Schallereignissen zu verbessern. Die vollständige BART-Architektur wird mit nur wenigen zusätzlichen Parametern fine-tuned. Experimentelle Ergebnisse zeigen, dass über die Skalierungseigenschaften der Architektur hinaus eine rein sprachbasierte Vortrainierung die Textqualität im multimodalen Kontext der Audio-Kommentierung verbessert. Das beste Modell erreicht eine state-of-the-art-Leistung auf AudioCaps mit 46,5 SPIDEr.