Neuronale Übersetzung von Gebärdensprache

Die Signerspracherkennung (Sign Language Recognition, SLR) ist in den letzten zwei Jahrzehnten ein aktives Forschungsfeld gewesen. Bislang wurde SLR jedoch meist als ein einfaches Gesten-Erkennungsproblem betrachtet. Die SLR zielt darauf ab, eine Folge kontinuierlicher Signe zu erkennen, ignoriert jedoch die tiefgreifenden grammatischen und sprachlichen Strukturen der GebärdenSprache, die sich von der gesprochenen Sprache unterscheiden. Im Gegensatz dazu führen wir das Problem der Signersprachübersetzung (Sign Language Translation, SLT) ein. Dabei geht es darum, Übersetzungen in gesprochener Sprache aus GebärdenSprachvideos zu generieren, wobei die unterschiedlichen Wortstellungen und Grammatiken berücksichtigt werden. Wir formalisieren SLT im Rahmen des Neuralen Maschinellen Übersetzung (Neural Machine Translation, NMT) sowohl für end-to-end- als auch für vortrainierte Ansätze (unter Verwendung fachlicher Expertenwissen). Dadurch können wir gemeinsam räumliche Darstellungen, die zugrundeliegende Sprachmodellierung und die Abbildung zwischen Gebärden- und gesprochener Sprache lernen. Um die Leistungsfähigkeit neuronaler SLT-Systeme zu evaluieren, haben wir den ersten öffentlich verfügbaren Datensatz für kontinuierliche SLT gesammelt: RWTH-PHOENIX-Weather 2014T. Er liefert Übersetzungen in gesprochener Sprache sowie Gloss-Etikettierungen für deutsche Gebärdensprachvideos von Wetterberichten. Unser Datensatz umfasst über 95 Millionen Frames mit mehr als 67.000 Zeichen aus einem Zeichenvokabular von über 1.000 und mehr als 99.000 Wörtern aus einem deutschen Wortschatz von über 2.800 Wörtern. Wir präsentieren quantitative und qualitative Ergebnisse für verschiedene SLT-Architekturen, um zukünftige Forschung in diesem neu etablierten Forschungsfeld zu unterstützen. Die obere Grenze für die Übersetzungsleistung liegt bei 19,26 BLEU-4, während unsere end-to-end-Netzwerke auf Frame- und Gloss-Ebene 9,58 bzw. 18,13 erreichen konnten.