HyperAIHyperAI

Command Palette

Search for a command to run...

AUTOMATISCHE AUDIO-KAPTIONIERUNG DURCH FEINABSTIMMUNG VON BART MIT AUDIOSET-TAGS

Christophe Cerisara Romain Serizel F ́elix Gontier

Zusammenfassung

Automatisierte Audio-Kommentierung ist die multimodale Aufgabe, Umgebungs-Audioaufnahmen mit fließendem natürlichen Sprachtext zu beschreiben. Die meisten aktuellen Methoden nutzen vortrainierte Analysemodelle, um relevante semantische Inhalte aus dem Audioeingang zu extrahieren. Allerdings wird vorherige Information über Sprachmodellierung selten berücksichtigt, und die entsprechenden Architekturen sind aufgrund von Datenknappheit in ihrer Kapazität eingeschränkt. In diesem Paper stellen wir eine Methode vor, die die sprachliche Information nutzt, die in BART, einem großskaligen bedingten Sprachmodell mit allgemeiner Vortrainierung, enthalten ist. Die Textgenerierung wird auf Sequenzen von textuellen AudioSet-Tags bedingt. Dieser Eingabedatenstrom wird durch zeitlich synchronisierte Audio-Embeddings ergänzt, was dem Modell ermöglicht, die Erkennung von Schallereignissen zu verbessern. Die vollständige BART-Architektur wird mit nur wenigen zusätzlichen Parametern fine-tuned. Experimentelle Ergebnisse zeigen, dass über die Skalierungseigenschaften der Architektur hinaus eine rein sprachbasierte Vortrainierung die Textqualität im multimodalen Kontext der Audio-Kommentierung verbessert. Das beste Modell erreicht eine state-of-the-art-Leistung auf AudioCaps mit 46,5 SPIDEr.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AUTOMATISCHE AUDIO-KAPTIONIERUNG DURCH FEINABSTIMMUNG VON BART MIT AUDIOSET-TAGS | Paper | HyperAI