HyperAIHyperAI
vor 9 Tagen

Visuelle Ausrichtungsbeschränkung für die kontinuierliche Signspracherkennung

Yuecong Min, Aiming Hao, Xiujuan Chai, Xilin Chen
Visuelle Ausrichtungsbeschränkung für die kontinuierliche Signspracherkennung
Abstract

Visionbasierte kontinuierliche Gebärdenspracherkennung (Continuous Sign Language Recognition, CSLR) zielt darauf ab, unsegmentierte Gebärden aus Bildsequenzen zu erkennen. Überanpassung (Overfitting) stellt eine der zentralen Herausforderungen beim Training von CSLR-Modellen dar. Frühere Arbeiten zeigen, dass das iterative Trainingsverfahren zwar teilweise diesem Problem entgegenwirken kann, jedoch mit einem erheblichen Mehraufwand an Trainingszeit einhergeht. In dieser Studie untersuchen wir erneut das iterative Trainingsverfahren aus jüngeren CSLR-Ansätzen und stellen fest, dass eine ausreichende Ausbildung des Merkmalsextraktors entscheidend für die Bewältigung des Überanpassungsproblems ist. Darauf aufbauend schlagen wir eine Visual Alignment Constraint (VAC) vor, um den Merkmalsextraktor durch Alignmentsupervision zu stärken. Konkret besteht die vorgeschlagene VAC aus zwei Hilfsverlustfunktionen: Eine konzentriert sich ausschließlich auf visuelle Merkmale, während die andere die Vorhersagealignment zwischen dem Merkmalsextraktor und dem Alignmentsmodul erzwingt. Zusätzlich führen wir zwei Metriken ein, die das Überanpassungsverhalten durch Messung der Vorhersageinkonsistenz zwischen Merkmalsextraktor und Alignmentsmodul quantifizieren. Experimentelle Ergebnisse auf zwei anspruchsvollen CSLR-Datensätzen zeigen, dass die vorgeschlagene VAC CSLR-Netzwerke end-to-end trainierbar macht und eine konkurrenzfähige Leistung erzielt.

Visuelle Ausrichtungsbeschränkung für die kontinuierliche Signspracherkennung | Neueste Forschungsarbeiten | HyperAI