HyperAIHyperAI
vor 9 Tagen

C2SLR: konsistenzverstärkte kontinuierliche Gebärdenspracherkennung

{Brian Mak, Ronglai Zuo}
C2SLR: konsistenzverstärkte kontinuierliche Gebärdenspracherkennung
Abstract

Der Kern vieler auf tiefem Lernen basierender Modelle zur kontinuierlichen Gebärdenspracherkennung (Continuous Sign Language Recognition, CSLR) besteht aus einem visuellen Modul, einem sequenziellen Modul und einem Alignierungsmodul. Allerdings ist es schwierig, solche CSLR-Backbones ausreichend mit einer einzigen Connectionist Temporal Classification-(CTC)-Verlustfunktion zu trainieren. In dieser Arbeit schlagen wir zwei ergänzende Einschränkungen vor, um die CSLR-Backbones aus der Perspektive der Konsistenz zu verbessern. Die erste Einschränkung zielt darauf ab, das visuelle Modul zu stärken, das anfällig für ein unzureichendes Training ist. Insbesondere da Gebärdensprachen hauptsächlich über Gesichtsausdrücke und Hände Informationen vermitteln, integrieren wir ein keypoint-gesteuertes räumliches Aufmerksamkeitsmodul in das visuelle Modul, um es zu zwingen, sich auf informative Regionen zu konzentrieren, also eine räumliche Aufmerksamkeitskonsistenz zu gewährleisten. Dennoch kann die Verbesserung allein des visuellen Moduls die volle Leistungsfähigkeit des Backbones nicht ausschöpfen. Ausgehend davon, dass sowohl die Ausgabefeatures des visuellen als auch des sequenziellen Moduls dieselbe Sätze repräsentieren, setzen wir zusätzlich eine Konsistenzbedingung für Satz-Embeddings zwischen beiden Modulen ein, um die Repräsentationskraft beider Features zu erhöhen. Experimentelle Ergebnisse an drei repräsentativen Backbones bestätigen die Wirksamkeit der beiden Einschränkungen. Besonders hervorzuheben ist, dass unser Modell mit einem Transformer-basierten Backbone auf drei Benchmarks – PHOENIX-2014, PHOENIX-2014-T und CSL – eine state-of-the-art oder wettbewerbsfähige Leistung erzielt.