HyperAIHyperAI
vor 9 Tagen

AUTSL: Ein großskaliges multimodales türkisches Gebärdensprachdatensatz und Baseline-Methoden

Ozge Mercanoglu Sincan, Hacer Yalim Keles
AUTSL: Ein großskaliges multimodales türkisches Gebärdensprachdatensatz und Baseline-Methoden
Abstract

Die Signalsprachenerkennung stellt eine herausfordernde Aufgabe dar, bei der Signe durch simultane lokale und globale Artikulation mehrerer Quellen erkannt werden, nämlich Handform und -orientierung, Handbewegungen, Körperhaltung sowie Gesichtsausdrücke. Die computergestützte Lösung dieses Problems für ein großes Vokabular an Signen in realen Umgebungen bleibt auch mit den aktuell fortschrittlichsten Modellen weiterhin eine Herausforderung. In dieser Studie präsentieren wir einen neuen, großskaligen, multimodalen Datensatz der Türkischen Gebärdensprache (AUTSL) mit einem Benchmark sowie Baseline-Modelle zur Leistungsbewertung. Unser Datensatz umfasst 226 Signe, die von 43 verschiedenen Sprechern ausgeführt wurden, und insgesamt 38.336 isolierte Signe-Videos. Die Aufnahmen zeigen eine große Vielfalt an Hintergründen, die sowohl im Innen- als auch Außenbereich aufgenommen wurden. Zudem variieren in den Aufnahmen die räumlichen Positionen und Körperhaltungen der Sprecher. Jeder Datensatz wurde mit der Microsoft Kinect v2 aufgenommen und enthält RGB-, Tiefen- sowie Skelettinformationen. Wir haben Benchmark-Trainings- und Testsets für eine nutzerunabhängige Bewertung der Modelle erstellt. Wir trainierten mehrere auf Deep Learning basierende Modelle und führen empirische Evaluierungen mittels des Benchmarks durch; hierbei wurden CNNs zur Merkmalsextraktion und einseitige sowie zweiseitige LSTM-Modelle zur Charakterisierung zeitlicher Informationen eingesetzt. Zudem integrierten wir Merkmalspooling-Module und zeitliche Aufmerksamkeit (temporal attention) in unsere Modelle, um deren Leistung zu verbessern. Wir evaluierten unsere Baseline-Modelle sowohl auf dem AUTSL- als auch auf dem Montalbano-Datensatz. Unsere Modelle erzielten auf dem Montalbano-Datensatz Ergebnisse, die mit den aktuell besten Methoden vergleichbar sind, nämlich eine Genauigkeit von 96,11 %. Bei zufälligen Trainings-Test-Splits auf AUTSL erreichten unsere Modelle eine Genauigkeit von bis zu 95,95 %. In dem vorgeschlagenen nutzerunabhängigen Benchmark-Datensatz erreichte unser bestes Baseline-Modell eine Genauigkeit von 62,02 %. Die Unterschiede in der Leistung der gleichen Baseline-Modelle verdeutlichen die inhärenten Schwierigkeiten des vorgestellten Benchmark-Datensatzes. Der AUTSL-Benchmark-Datensatz ist öffentlich verfügbar unter https://cvml.ankara.edu.tr.

AUTSL: Ein großskaliges multimodales türkisches Gebärdensprachdatensatz und Baseline-Methoden | Neueste Forschungsarbeiten | HyperAI