Zero-Shot Audio Captioning durch Hörbarkeitsführung

Die Aufgabe der Audio-Beschreibung ist im Wesentlichen ähnlich zu Aufgaben wie der Bild- und Videobeschreibung. Sie hat jedoch viel weniger Aufmerksamkeit erfahren. Wir schlagen drei Anforderungen für die Beschreibung von Audio vor – (i) Flüssigkeit des generierten Textes, (ii) Treue des generierten Textes zum Eingabe-Audio und die in gewisser Weise verwandte (iii) Hörbarkeit, die sich auf die Qualität bezieht, etwas nur auf Grundlage von Audio wahrnehmen zu können. Unsere Methode ist eine Zero-Shot-Methode, d.h., wir lernen nicht, Beschreibungen zu erstellen. Stattdessen erfolgt die Beschreibung als Inferenzprozess, der drei Netzwerke umfasst, die den drei gewünschten Qualitäten entsprechen: (i) Ein großes Sprachmodell, in unserem Fall aus Gründen der Bequemlichkeit GPT-2, (ii) Ein Modell, das einen Übereinstimmungswert zwischen einer Audiodatei und einem Text bereitstellt, für das wir ein multimodales Matching-Netzwerk namens ImageBind verwenden, und (iii) Ein Textklassifizierer, der mit einem von uns automatisch gesammelten Datensatz trainiert wurde, indem wir GPT-4 mit Anweisungen versorgten, die darauf abzielten, sowohl hörbare als auch unhörbare Sätze zu generieren. Wir präsentieren unsere Ergebnisse am AudioCap-Datensatz und zeigen daran, dass die Hörbarkeitsleitung die Leistung erheblich verbessert im Vergleich zur Baseline-Methode, die dieses Ziel nicht verfolgt.