HyperAIHyperAI
vor 9 Tagen

Verbesserung der automatisierten Audio-Kommentierung durch große Sprachmodelle mit optimierter Audio-Codierung

Jizhong Liu, Gang Li, Junbo Zhang, Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Yujun Wang, Bin Wang
Verbesserung der automatisierten Audio-Kommentierung durch große Sprachmodelle mit optimierter Audio-Codierung
Abstract

Automatisiertes Audio-Kommentieren (AAC) ist eine Aufgabe im Bereich Audio-zu-Text, bei der audioinhaltliche Informationen in natürlicher Sprache beschrieben werden. In jüngster Zeit haben die Fortschritte bei großen Sprachmodellen (LLMs), verbunden mit Verbesserungen der Trainingsansätze für Audio-Encoder, neue Möglichkeiten zur Verbesserung von AAC eröffnet. Daher untersuchen wir die Verbesserung von AAC aus drei Aspekten: 1) Ein vortrainierter Audio-Encoder wird mittels konsistenter Ensemble-Distillation (CED) eingesetzt, um die Effektivität akustischer Tokens zu steigern; ein Querying-Transformer (Q-Former) überbrückt dabei die Modalklücke zu LLMs und komprimiert die akustischen Tokens; 2) wir untersuchen die Vorteile der Verwendung eines Llama-2-Modells mit 7B Parametern als Dekoder; 3) ein weiteres vortrainiertes LLM korrigiert Textfehler, die durch unzureichende Trainingsdaten und mehrdeutige Annotationen verursacht werden. Sowohl der Audio-Encoder als auch der Text-Dekoder werden mittels Low-Rank-Adaptation (LoRA) optimiert. Experimente zeigen, dass jede dieser Verbesserungen wirksam ist. Unser Ansatz erreicht eine SPIDEr-FL-Score von 33,0 und schlägt damit den Gewinner der DCASE 2023 Task 6A.

Verbesserung der automatisierten Audio-Kommentierung durch große Sprachmodelle mit optimierter Audio-Codierung | Neueste Forschungsarbeiten | HyperAI