vor 9 Tagen

Zwei-Stream-Netzwerk für die Signspracherkennung und -übersetzung

Yutong Chen, Ronglai Zuo, Fangyun Wei, Yu Wu, Shujie Liu, Brian Mak

Abstract

Signsprachen sind visuelle Sprachen, die manuelle Artikulationen und nicht-manuelle Elemente nutzen, um Informationen zu vermitteln. Bei der Signspracherkennung und -übersetzung kodieren die meisten bestehenden Ansätze RGB-Videos direkt in versteckte Darstellungen. RGB-Videos stellen jedoch rohe Signale mit erheblicher visueller Redundanz dar, wodurch der Encoder wichtige Informationen für das Verständnis von Signsprachen übersehen kann. Um dieses Problem zu mildern und dominänkenwissen, wie Handform und Körperbewegung, besser zu integrieren, führen wir einen dualen visuellen Encoder mit zwei getrennten Strömen ein, die sowohl die Rohvideos als auch die von einem etablierten Keypoint-Schätzer generierten Keypoint-Sequenzen modellieren. Um die Interaktion zwischen den beiden Strömen zu ermöglichen, untersuchen wir verschiedene Techniken, darunter bidirektionale laterale Verbindungen, ein Sign-Pyramid-Netzwerk mit zusätzlicher Überwachung und frame-basierte Selbst-Distillation. Das resultierende Modell heißt TwoStream-SLR und ist für die Signspracherkennung (SLR) geeignet. Durch die einfache Hinzufügung eines zusätzlichen Übersetzungsnetzwerks wird TwoStream-SLR zu einem Modell für die Signsprachübersetzung (SLT), TwoStream-SLT. Experimentell erreichen unsere Modelle TwoStream-SLR und TwoStream-SLT den Stand der Technik bei SLR- und SLT-Aufgaben auf einer Reihe von Datensätzen, darunter Phoenix-2014, Phoenix-2014T und CSL-Daily. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/FangyunWei/SLRT.