Wortbasierte Deep Sign Language Recognition aus Video: Ein neues großskaliges Datensatz und Vergleich von Methoden

Die visionbasierte Gebärdenspracherkennung zielt darauf ab, gehörlosen Menschen die Kommunikation mit anderen zu erleichtern. Allerdings sind die meisten verfügbaren Gebärdensprachdatensätze auf eine geringe Anzahl an Wörtern beschränkt. Aufgrund der begrenzten Vokabulargröße können Modelle, die auf solchen Datensätzen trainiert wurden, in der Praxis nicht sinnvoll eingesetzt werden. In diesem Paper stellen wir einen neuen, großskaligen, wortbasierten Datensatz für die amerikanische Gebärdensprache (WLASL) vor, der über 2000 Wörter enthält, die von mehr als 100 Gebärdensprechern dargestellt wurden. Dieser Datensatz wird der Forschungsgemeinschaft öffentlich zugänglich gemacht. Soweit uns bekannt ist, handelt es sich hierbei bislang um den größten öffentlich verfügbaren ASL-Datensatz zur Förderung der wortbasierten Gebärdenspracherkennungsforschung.Basierend auf diesem neuen großskaligen Datensatz können wir mehrere Deep-Learning-Methoden für die wortbasierte Gebärdenspracherkennung experimentell untersuchen und deren Leistung in großskaligen Szenarien bewerten. Konkret implementieren und vergleichen wir zwei unterschiedliche Ansätze: (i) einen Ansatz, der auf der globalen visuellen Erscheinung basiert, und (ii) einen Ansatz, der auf 2D-Körperpose-Daten aufbaut. Beide Modelle stellen wertvolle Baseline-Verfahren dar, die der Gemeinschaft zur Benchmarking von Methoden dienen werden. Darüber hinaus schlagen wir ein neuartiges, posebasiertes Temporal Graph Convolutional Network (Pose-TGCN) vor, das räumliche und zeitliche Abhängigkeiten in Körperpose-Trajektorien gleichzeitig modelliert und somit die Leistung des posebasierten Ansatzes weiter verbessert. Unsere Ergebnisse zeigen, dass posebasierte und appearancebasierte Modelle vergleichbare Leistungen erzielen – bis zu 66 % Top-10-Accuracy bei 2.000 Wörtern/Glosses – was die Validität sowie die Herausforderungen unseres Datensatzes unterstreicht. Unser Datensatz und die vorgestellten Baseline-Deep-Modelle sind unter \url{https://dxli94.github.io/WLASL/} verfügbar.