HyperAIHyperAI
vor 9 Tagen

Verbesserung der kontinuierlichen Gebärdensprachenerkennung durch Konsistenzbeschränkungen und Sprecherentfernung

Ronglai Zuo, Brian Mak
Verbesserung der kontinuierlichen Gebärdensprachenerkennung durch Konsistenzbeschränkungen und Sprecherentfernung
Abstract

Die meisten auf tiefem Lernen basierenden Modelle zur kontinuierlichen Gebärdensprachenerkennung (CSLR) teilen einen ähnlichen Grundbaustein, der aus einem visuellen Modul, einem sequenziellen Modul und einem Alignierungsmodul besteht. Aufgrund begrenzter Trainingsdaten kann jedoch eine Connectionist Temporal Classification (CTC)-Verlustfunktion solche CSLR-Grundbausteine nicht ausreichend trainieren. In dieser Arbeit schlagen wir drei Hilfsaufgaben vor, um die CSLR-Grundbausteine zu verbessern. Die erste Aufgabe stärkt das visuelle Modul, das besonders anfällig für das Problem unzureichender Trainingsdaten ist, aus der Perspektive der Konsistenz. Insbesondere da die Informationen der Gebärdensprache hauptsächlich in den Gesichtsausdrücken und Handbewegungen der Sprecher enthalten sind, entwickeln wir ein keypoint-gesteuertes räumliches Aufmerksamkeitsmodul, um das visuelle Modul dazu zu bringen, sich auf informative Regionen zu konzentrieren, also räumliche Aufmerksamkeitskonsistenz zu gewährleisten. Zweitens bemerken wir, dass die Ausgabefeatures des visuellen und des sequenziellen Moduls dieselbe Sätze repräsentieren. Um die Leistungsfähigkeit des Grundbausteins besser auszunutzen, wird eine Konsistenzbedingung für Satz-Embeddings zwischen visuellem und sequentiellem Modul eingeführt, um die Repräsentationskraft beider Features zu stärken. Wir bezeichnen das CSLR-Modell, das mit diesen Hilfsaufgaben trainiert wurde, als konsistenzverstärktes CSLR, das sich auf signerabhängigen Datensätzen gut verhält, bei denen alle Sprecher sowohl im Trainings- als auch im Testzeitraum auftreten. Um die Robustheit im signerunabhängigen Szenario weiter zu erhöhen, wird zudem ein Sprecherentfernungsmodule auf Basis von Merkmalsentkoppelung vorgeschlagen, um Sprecherinformationen aus dem Grundbaustein zu entfernen. Um die Wirksamkeit dieser Hilfsaufgaben zu validieren, werden umfangreiche Ablationsstudien durchgeführt. Besonders bemerkenswert ist, dass unser Modell mit einem Transformer-basierten Grundbaustein auf fünf Benchmarks – PHOENIX-2014, PHOENIX-2014-T, PHOENIX-2014-SI, CSL und CSL-Daily – eine state-of-the-art oder konkurrenzfähige Leistung erzielt. Der Quellcode und die Modelle sind unter https://github.com/2000ZRL/LCSA_C2SLR_SRM verfügbar.

Verbesserung der kontinuierlichen Gebärdensprachenerkennung durch Konsistenzbeschränkungen und Sprecherentfernung | Neueste Forschungsarbeiten | HyperAI