HyperAIHyperAI
vor 2 Monaten

Zero-Shot-Audio-Beschreibung mit Anleitung durch ein Audio-Sprachmodell und Audio-Kontextschlüsselwörter

Salewski, Leonard ; Fauth, Stefan ; Koepke, A. Sophia ; Akata, Zeynep
Zero-Shot-Audio-Beschreibung mit Anleitung durch ein Audio-Sprachmodell und Audio-Kontextschlüsselwörter
Abstract

Zero-Shot-Audio-Beschreibung zielt darauf ab, beschreibende textuelle Beschriftungen für Audioinhalte automatisch zu generieren, ohne dass dafür eine spezifische Aufgaben-Trainingsphase erforderlich ist. Im Gegensatz zur Spracherkennung, die gesprochene Sprache in Text umwandelt, befasst sich die Audio-Beschreibung in der Regel mit Umgebungsgeräuschen oder Geräuschen, die von einer Person beim Ausführen einer Aktion erzeugt werden. Inspiriert durch Methoden des Zero-Shot-Bild-Beschreibens schlagen wir ZerAuCap vor, einen neuen Ansatz zur Zusammenfassung solcher allgemeiner Audiosignale in einem textuellen Caption, ohne spezifisches Training für diese Aufgabe zu benötigen. Insbesondere nutzt unser Framework ein vortrainiertes großes Sprachmodell (LLM), das durch ein vortrainiertes Audiosprachmodell geleitet wird, um Captions zu erzeugen, die den Audioinhalt beschreiben. Zusätzlich verwenden wir Audokontextschlüsselwörter, die das Sprachmodell dazu anregen, Text zu generieren, der im Allgemeinen auf Geräusche bezogen ist. Unser vorgeschlagenes Framework erzielt standesüberragende Ergebnisse bei der Zero-Shot-Audio-Beschreibung auf den Datensätzen AudioCaps und Clotho. Unser Code ist unter https://github.com/ExplainableML/ZerAuCap verfügbar.

Zero-Shot-Audio-Beschreibung mit Anleitung durch ein Audio-Sprachmodell und Audio-Kontextschlüsselwörter | Neueste Forschungsarbeiten | HyperAI