HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der automatisierten Audio-Kommentierung durch große Sprachmodelle mit optimierter Audio-Codierung

Jizhong Liu Gang Li Junbo Zhang Heinrich Dinkel Yongqing Wang Zhiyong Yan Yujun Wang Bin Wang

Zusammenfassung

Automatisiertes Audio-Kommentieren (AAC) ist eine Aufgabe im Bereich Audio-zu-Text, bei der audioinhaltliche Informationen in natürlicher Sprache beschrieben werden. In jüngster Zeit haben die Fortschritte bei großen Sprachmodellen (LLMs), verbunden mit Verbesserungen der Trainingsansätze für Audio-Encoder, neue Möglichkeiten zur Verbesserung von AAC eröffnet. Daher untersuchen wir die Verbesserung von AAC aus drei Aspekten: 1) Ein vortrainierter Audio-Encoder wird mittels konsistenter Ensemble-Distillation (CED) eingesetzt, um die Effektivität akustischer Tokens zu steigern; ein Querying-Transformer (Q-Former) überbrückt dabei die Modalklücke zu LLMs und komprimiert die akustischen Tokens; 2) wir untersuchen die Vorteile der Verwendung eines Llama-2-Modells mit 7B Parametern als Dekoder; 3) ein weiteres vortrainiertes LLM korrigiert Textfehler, die durch unzureichende Trainingsdaten und mehrdeutige Annotationen verursacht werden. Sowohl der Audio-Encoder als auch der Text-Dekoder werden mittels Low-Rank-Adaptation (LoRA) optimiert. Experimente zeigen, dass jede dieser Verbesserungen wirksam ist. Unser Ansatz erreicht eine SPIDEr-FL-Score von 33,0 und schlägt damit den Gewinner der DCASE 2023 Task 6A.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp