HyperAIHyperAI

Command Palette

Search for a command to run...

SLAM-AAC: Verbesserung der Audiozusammenfassung durch Paraphrasierungs-Augmentation und CLAP-Refine mittels LLMs

Wenxi Chen Ziyang Ma Xiquan Li Xuenan Xu Yuzhe Liang Zhisheng Zheng Kai Yu Xie Chen

Zusammenfassung

Automatisiertes Audio-Kommentieren (Automated Audio Captioning, AAC) zielt darauf ab, natürliche textuelle Beschreibungen für Eingabesignale aus Audio zu generieren. In jüngster Zeit haben Fortschritte in vortrainierten Audio-Modellen und großen Sprachmodellen (Large Language Models, LLMs) die Fähigkeiten zur Audio-Verständnis und textuellen Schlussfolgerung erheblich verbessert, was eine Weiterentwicklung im Bereich AAC ermöglicht. In diesem Paper stellen wir SLAM-AAC vor, ein Ansatz, der AAC durch Paraphrasierungsaugmentation und CLAP-Refine mittels LLMs weiter verbessert. Unser Verfahren nutzt das selbstüberwachte EAT-Modell, um feinkörnige Audio-Repräsentationen zu extrahieren, die anschließend über leichte lineare Schichten mit textuellen Embeddings ausgerichtet werden. Der zur Caption-Generierung verwendete LLM wird effizient mittels LoRA-Adapter fine-tuned. Inspiriert durch die Back-Translation-Methode im Bereich der maschinellen Übersetzung, implementieren wir eine Paraphrasierungsaugmentation, um während des Pre-Trainings die Clotho-Datenbank zu erweitern. Diese Strategie hilft, die Beschränkung durch wenige Audio-Text-Paare zu überwinden und ermöglicht die Generierung vielfältigerer Beschreibungen aus einer geringen Anzahl von Audio-Clips. Während der Inferenz führen wir die plug-and-play-Strategie CLAP-Refine ein, um mehrfache Decoding-Ausgaben vollständig auszunutzen, vergleichbar mit der n-best-Rescoring-Strategie in der Spracherkennung. Mittels des CLAP-Modells zur Berechnung der Audio-Text-Ähnlichkeit können wir diejenigen textuellen Beschreibungen auswählen, die am besten zum Eingabesignal passen, die durch verschiedene Suchstrahlen generiert wurden. Experimentelle Ergebnisse zeigen, dass SLAM-AAC eine state-of-the-art-Leistung auf Clotho V2 und AudioCaps erzielt und damit frühere Hauptmodelle übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp