Audio Captioning Transformer

Die Audiodarstellung (Audio Captioning) strebt danach, automatisch eine natürlichsprachliche Beschreibung eines Audioausschnitts zu generieren. Die meisten Darstellungsmodelle folgen einer Encoder-Decoder-Architektur, bei der der Decoder Wörter basierend auf den vom Encoder extrahierten Audiofeatures vorhersagt. Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) und rekurrente Neuronale Netze (Recurrent Neural Networks, RNNs) werden häufig als Audioencoder eingesetzt. Allerdings können CNNs in der Modellierung zeitlicher Beziehungen zwischen den Zeitfenstern eines Audiosignals begrenzt sein, während RNNs in der Modellierung langer Abhängigkeiten zwischen den Zeitfenstern begrenzt sein können. In dieser Arbeit schlagen wir einen Audiodarstellungstransformer (Audio Captioning Transformer, ACT) vor, der ein vollständiges Transformer-Netzwerk auf einer Encoder-Decoder-Architektur basiert und komplett faltungsfrei ist. Das vorgeschlagene Verfahren verfügt über eine bessere Fähigkeit, die globale Information innerhalb eines Audiosignals zu modellieren sowie zeitliche Beziehungen zwischen Audioereignissen zu erfassen. Wir evaluieren unser Modell auf AudioCaps, dem größten öffentlich verfügbaren Datensatz für Audiodarstellungen. Unser Modell zeigt eine wettbewerbsfähige Leistung im Vergleich zu anderen state-of-the-art-Ansätzen.