Audio Captioning mit gated recurrent units

Audio Captioning ist eine kürzlich vorgeschlagene Aufgabe zur automatischen Generierung einer textuellen Beschreibung eines gegebenen Audio-Ausschnitts. In dieser Studie wird eine neuartige tiefen neuronalen Netzarchitektur vorgestellt, die Audio-Embeddings nutzt, um Audio-Captions vorherzusagen. Um neben den log-Mel-Energien weitere Audio-Features zu extrahieren, wird das VGGish-Audio-Embedding-Modell herangezogen, um die Brauchbarkeit von Audio-Embeddings im Kontext des Audio Captioning zu untersuchen. Die vorgeschlagene Architektur kodiert Audio- und Texteingabemodalitäten getrennt und kombiniert sie erst in der Dekodierungsphase. Die Audio-Kodierung erfolgt mittels bidirektionaler Gated Recurrent Units (BiGRU), während für die Textkodierung eine GRU verwendet wird. Anschließend evaluieren wir unser Modell anhand des kürzlich veröffentlichten Leistungsdatensatzes für Audio Captioning, des Clotho-Datensatzes, um die experimentellen Ergebnisse mit der Literatur zu vergleichen. Unsere experimentellen Ergebnisse zeigen, dass das vorgeschlagene BiGRU-basierte tiefe Modell die bisherigen State-of-the-Art-Ergebnisse übertrifft.