HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-Shot Audio Captioning durch Hörbarkeitsführung

Tal Shaharabany Ariel Shaulov Lior Wolf

Zusammenfassung

Die Aufgabe der Audio-Beschreibung ist im Wesentlichen ähnlich zu Aufgaben wie der Bild- und Videobeschreibung. Sie hat jedoch viel weniger Aufmerksamkeit erfahren. Wir schlagen drei Anforderungen für die Beschreibung von Audio vor – (i) Flüssigkeit des generierten Textes, (ii) Treue des generierten Textes zum Eingabe-Audio und die in gewisser Weise verwandte (iii) Hörbarkeit, die sich auf die Qualität bezieht, etwas nur auf Grundlage von Audio wahrnehmen zu können. Unsere Methode ist eine Zero-Shot-Methode, d.h., wir lernen nicht, Beschreibungen zu erstellen. Stattdessen erfolgt die Beschreibung als Inferenzprozess, der drei Netzwerke umfasst, die den drei gewünschten Qualitäten entsprechen: (i) Ein großes Sprachmodell, in unserem Fall aus Gründen der Bequemlichkeit GPT-2, (ii) Ein Modell, das einen Übereinstimmungswert zwischen einer Audiodatei und einem Text bereitstellt, für das wir ein multimodales Matching-Netzwerk namens ImageBind verwenden, und (iii) Ein Textklassifizierer, der mit einem von uns automatisch gesammelten Datensatz trainiert wurde, indem wir GPT-4 mit Anweisungen versorgten, die darauf abzielten, sowohl hörbare als auch unhörbare Sätze zu generieren. Wir präsentieren unsere Ergebnisse am AudioCap-Datensatz und zeigen daran, dass die Hörbarkeitsleitung die Leistung erheblich verbessert im Vergleich zur Baseline-Methode, die dieses Ziel nicht verfolgt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp