HyperAIHyperAI
vor 18 Tagen

Untersuchung von Trainings- und Testzeit-Verstärkungen für audio-sprachliches Lernen

Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park, Jaeheon Sim, Jinwoo Lee, Kyogu Lee
Untersuchung von Trainings- und Testzeit-Verstärkungen für audio-sprachliches Lernen
Abstract

In diesem Paper zielen wir darauf ab, die Auswirkungen von Data Augmentation im Bereich der audio-sprachlichen multimodalen Lernverfahren aufzudecken, obwohl deren Bedeutung unbestritten ist. Wir untersuchen verschiedene Augmentationsmethoden nicht nur zur Trainingszeit, sondern auch zur Testzeit und zeigen, dass eine sorgfältige Anwendung von Data Augmentation zu erheblichen Verbesserungen führen kann. Insbesondere erzielt unsere vorgeschlagene audio-sprachliche Paar-Augmentation, PairMix – die erste multimodale Augmentationsmethode für audio-sprachliche Daten – bei beiden Aufgaben, der automatisierten Audio-Kommentierung und der Audio-Text-Recherche, bessere Ergebnisse als die Baseline-Modelle. Um die Vorteile von Data Augmentation voll auszuschöpfen, präsentieren wir zudem eine mehrstufige Testzeit-Augmentation (Multi-TTA) für die Testphase. Durch die erfolgreiche Integration der beiden vorgeschlagenen Methoden mit uni-modalen Augmentationsansätzen erreichen wir eine SPIDEr-Score von 47,5 bei der Audio-Kommentierung, was einer relativen Steigerung um 18,2 % gegenüber der Baseline entspricht. Auch in der Audio-Text-Recherche zeigt die vorgeschlagene Methode eine signifikante Leistungssteigerung.