HyperAIHyperAI
vor 9 Tagen

SLAM-AAC: Verbesserung der Audiozusammenfassung durch Paraphrasierungs-Augmentation und CLAP-Refine mittels LLMs

Wenxi Chen, Ziyang Ma, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, Xie Chen
SLAM-AAC: Verbesserung der Audiozusammenfassung durch Paraphrasierungs-Augmentation und CLAP-Refine mittels LLMs
Abstract

Automatisiertes Audio-Kommentieren (Automated Audio Captioning, AAC) zielt darauf ab, natürliche textuelle Beschreibungen für Eingabesignale aus Audio zu generieren. In jüngster Zeit haben Fortschritte in vortrainierten Audio-Modellen und großen Sprachmodellen (Large Language Models, LLMs) die Fähigkeiten zur Audio-Verständnis und textuellen Schlussfolgerung erheblich verbessert, was eine Weiterentwicklung im Bereich AAC ermöglicht. In diesem Paper stellen wir SLAM-AAC vor, ein Ansatz, der AAC durch Paraphrasierungsaugmentation und CLAP-Refine mittels LLMs weiter verbessert. Unser Verfahren nutzt das selbstüberwachte EAT-Modell, um feinkörnige Audio-Repräsentationen zu extrahieren, die anschließend über leichte lineare Schichten mit textuellen Embeddings ausgerichtet werden. Der zur Caption-Generierung verwendete LLM wird effizient mittels LoRA-Adapter fine-tuned. Inspiriert durch die Back-Translation-Methode im Bereich der maschinellen Übersetzung, implementieren wir eine Paraphrasierungsaugmentation, um während des Pre-Trainings die Clotho-Datenbank zu erweitern. Diese Strategie hilft, die Beschränkung durch wenige Audio-Text-Paare zu überwinden und ermöglicht die Generierung vielfältigerer Beschreibungen aus einer geringen Anzahl von Audio-Clips. Während der Inferenz führen wir die plug-and-play-Strategie CLAP-Refine ein, um mehrfache Decoding-Ausgaben vollständig auszunutzen, vergleichbar mit der n-best-Rescoring-Strategie in der Spracherkennung. Mittels des CLAP-Modells zur Berechnung der Audio-Text-Ähnlichkeit können wir diejenigen textuellen Beschreibungen auswählen, die am besten zum Eingabesignal passen, die durch verschiedene Suchstrahlen generiert wurden. Experimentelle Ergebnisse zeigen, dass SLAM-AAC eine state-of-the-art-Leistung auf Clotho V2 und AudioCaps erzielt und damit frühere Hauptmodelle übertrifft.

SLAM-AAC: Verbesserung der Audiozusammenfassung durch Paraphrasierungs-Augmentation und CLAP-Refine mittels LLMs | Neueste Forschungsarbeiten | HyperAI