Bessere Gebärdensprachübersetzung mit STMC-Transformer

Die Übersetzung von Gebärdensprache (Sign Language Translation, SLT) nutzt zunächst ein Gebärdenerkennungssystem (Sign Language Recognition, SLR), um aus Videodaten Gebärdenglossen zu extrahieren. Anschließend generiert ein Übersetzungssystem aus diesen Glossen Übersetzungen in gesprochener Sprache. Diese Arbeit konzentriert sich auf das Übersetzungssystem und stellt den STMC-Transformer vor, der die derzeit beste Leistung um über 5 und 7 BLEU jeweils bei der Glosen-zu-Text- und Video-zu-Text-Übersetzung des PHOENIX-Weather-2014T-Datensatzes übertrifft. Auf der ASLG-PC12-Korpus-Textbasis erreichen wir eine Steigerung um über 16 BLEU.Zudem zeigen wir auf, dass aktuelle Methoden, die auf Glosen-Supervision basieren, gravierende Probleme aufweisen. Die Video-zu-Text-Übersetzung unseres STMC-Transformers übertrifft die Übersetzung von Ground-Truth-Glossen (GT-Glossen). Dies widerspricht früheren Annahmen, dass die Übersetzung von GT-Glossen eine obere Grenze für die SLT-Leistung darstellt, und offenbart, dass Glossen eine ineffiziente Darstellung der Gebärdensprache darstellen. Für zukünftige Forschung im Bereich SLT empfehlen wir daher eine end-to-end-Trainingsstrategie für Erkennungs- und Übersetzungssysteme oder den Einsatz einer anderen Annotationsschema für Gebärdensprache.