HyperAIHyperAI
vor 9 Tagen

Multimodaler lokal ver stärkter Transformer für die kontinuierliche Gebärdenspracherkennung

{Gerasimos Potamianos, Katerina Papadimitriou}
Abstract

In diesem Artikel stellen wir einen neuartigen, auf Transformers basierenden Ansatz für die kontinuierliche Gebärdenspracherkennung (Continuous Sign Language Recognition, CSLR) aus Videos vor, um die Einschränkungen herkömmlicher Transformers bei der Erfassung lokaler semantischer Kontexte in der Gebärdensprache zu überwinden. Konkret stützt sich der vorgeschlagene Ansatz auf zwei unterschiedliche Komponenten: (a) ein fensterbasiertes RNN-Modul zur Erfassung lokaler zeitlicher Kontexte und (b) einen Transformer-Encoder, der durch eine lokale Modellierung mittels Gauss’scher Bias und relative Positionsinformationen sowie durch eine globale Strukturmodellierung mittels Multi-Head-Attention verbessert wird. Um die Leistung des Modells weiter zu steigern, entwickeln wir einen multimodalen Rahmen, der den vorgeschlagenen Ansatz sowohl auf den Erscheinungs- als auch auf den Bewegungsstrom der Gebärdensprache anwendet und deren posteriore Verteilungen durch eine leitende CTC-Technik ausrichtet. Zudem erreichen wir eine Alignment von visuellen Merkmalen und Gloss-Sequenzen durch die Einbeziehung eines Knowledge-Distillation-Verlustes. Experimentelle Bewertungen an zwei etablierten deutschen CSLR-Datensätzen belegen die Überlegenheit unseres Modells.