HyperAIHyperAI

Command Palette

Search for a command to run...

Audio Captioning Transformer

Xinhao Mei Xubo Liu Qiushi Huang Mark D. Plumbley Wenwu Wang

Zusammenfassung

Die Audiodarstellung (Audio Captioning) strebt danach, automatisch eine natürlichsprachliche Beschreibung eines Audioausschnitts zu generieren. Die meisten Darstellungsmodelle folgen einer Encoder-Decoder-Architektur, bei der der Decoder Wörter basierend auf den vom Encoder extrahierten Audiofeatures vorhersagt. Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) und rekurrente Neuronale Netze (Recurrent Neural Networks, RNNs) werden häufig als Audioencoder eingesetzt. Allerdings können CNNs in der Modellierung zeitlicher Beziehungen zwischen den Zeitfenstern eines Audiosignals begrenzt sein, während RNNs in der Modellierung langer Abhängigkeiten zwischen den Zeitfenstern begrenzt sein können. In dieser Arbeit schlagen wir einen Audiodarstellungstransformer (Audio Captioning Transformer, ACT) vor, der ein vollständiges Transformer-Netzwerk auf einer Encoder-Decoder-Architektur basiert und komplett faltungsfrei ist. Das vorgeschlagene Verfahren verfügt über eine bessere Fähigkeit, die globale Information innerhalb eines Audiosignals zu modellieren sowie zeitliche Beziehungen zwischen Audioereignissen zu erfassen. Wir evaluieren unser Modell auf AudioCaps, dem größten öffentlich verfügbaren Datensatz für Audiodarstellungen. Unser Modell zeigt eine wettbewerbsfähige Leistung im Vergleich zu anderen state-of-the-art-Ansätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp