HyperAIHyperAI

Command Palette

Search for a command to run...

Untersuchung von Trainings- und Testzeit-Verstärkungen für audio-sprachliches Lernen

Eungbeom Kim Jinhee Kim Yoori Oh Kyungsu Kim Minju Park Jaeheon Sim Jinwoo Lee Kyogu Lee

Zusammenfassung

In diesem Paper zielen wir darauf ab, die Auswirkungen von Data Augmentation im Bereich der audio-sprachlichen multimodalen Lernverfahren aufzudecken, obwohl deren Bedeutung unbestritten ist. Wir untersuchen verschiedene Augmentationsmethoden nicht nur zur Trainingszeit, sondern auch zur Testzeit und zeigen, dass eine sorgfältige Anwendung von Data Augmentation zu erheblichen Verbesserungen führen kann. Insbesondere erzielt unsere vorgeschlagene audio-sprachliche Paar-Augmentation, PairMix – die erste multimodale Augmentationsmethode für audio-sprachliche Daten – bei beiden Aufgaben, der automatisierten Audio-Kommentierung und der Audio-Text-Recherche, bessere Ergebnisse als die Baseline-Modelle. Um die Vorteile von Data Augmentation voll auszuschöpfen, präsentieren wir zudem eine mehrstufige Testzeit-Augmentation (Multi-TTA) für die Testphase. Durch die erfolgreiche Integration der beiden vorgeschlagenen Methoden mit uni-modalen Augmentationsansätzen erreichen wir eine SPIDEr-Score von 47,5 bei der Audio-Kommentierung, was einer relativen Steigerung um 18,2 % gegenüber der Baseline entspricht. Auch in der Audio-Text-Recherche zeigt die vorgeschlagene Methode eine signifikante Leistungssteigerung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Untersuchung von Trainings- und Testzeit-Verstärkungen für audio-sprachliches Lernen | Paper | HyperAI