HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodaler lokal ver stärkter Transformer für die kontinuierliche Gebärdenspracherkennung

Gerasimos Potamianos Katerina Papadimitriou

Zusammenfassung

In diesem Artikel stellen wir einen neuartigen, auf Transformers basierenden Ansatz für die kontinuierliche Gebärdenspracherkennung (Continuous Sign Language Recognition, CSLR) aus Videos vor, um die Einschränkungen herkömmlicher Transformers bei der Erfassung lokaler semantischer Kontexte in der Gebärdensprache zu überwinden. Konkret stützt sich der vorgeschlagene Ansatz auf zwei unterschiedliche Komponenten: (a) ein fensterbasiertes RNN-Modul zur Erfassung lokaler zeitlicher Kontexte und (b) einen Transformer-Encoder, der durch eine lokale Modellierung mittels Gauss’scher Bias und relative Positionsinformationen sowie durch eine globale Strukturmodellierung mittels Multi-Head-Attention verbessert wird. Um die Leistung des Modells weiter zu steigern, entwickeln wir einen multimodalen Rahmen, der den vorgeschlagenen Ansatz sowohl auf den Erscheinungs- als auch auf den Bewegungsstrom der Gebärdensprache anwendet und deren posteriore Verteilungen durch eine leitende CTC-Technik ausrichtet. Zudem erreichen wir eine Alignment von visuellen Merkmalen und Gloss-Sequenzen durch die Einbeziehung eines Knowledge-Distillation-Verlustes. Experimentelle Bewertungen an zwei etablierten deutschen CSLR-Datensätzen belegen die Überlegenheit unseres Modells.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multimodaler lokal ver stärkter Transformer für die kontinuierliche Gebärdenspracherkennung | Paper | HyperAI