HyperAIHyperAI

Command Palette

Search for a command to run...

Audio Captioning mit gated recurrent units

Ayşegül Özkaya Eren Mustafa Sert

Zusammenfassung

Audio Captioning ist eine kürzlich vorgeschlagene Aufgabe zur automatischen Generierung einer textuellen Beschreibung eines gegebenen Audio-Ausschnitts. In dieser Studie wird eine neuartige tiefen neuronalen Netzarchitektur vorgestellt, die Audio-Embeddings nutzt, um Audio-Captions vorherzusagen. Um neben den log-Mel-Energien weitere Audio-Features zu extrahieren, wird das VGGish-Audio-Embedding-Modell herangezogen, um die Brauchbarkeit von Audio-Embeddings im Kontext des Audio Captioning zu untersuchen. Die vorgeschlagene Architektur kodiert Audio- und Texteingabemodalitäten getrennt und kombiniert sie erst in der Dekodierungsphase. Die Audio-Kodierung erfolgt mittels bidirektionaler Gated Recurrent Units (BiGRU), während für die Textkodierung eine GRU verwendet wird. Anschließend evaluieren wir unser Modell anhand des kürzlich veröffentlichten Leistungsdatensatzes für Audio Captioning, des Clotho-Datensatzes, um die experimentellen Ergebnisse mit der Literatur zu vergleichen. Unsere experimentellen Ergebnisse zeigen, dass das vorgeschlagene BiGRU-basierte tiefe Modell die bisherigen State-of-the-Art-Ergebnisse übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp