Sprachgestützte Erkennung von Gebärdensprache

Gebärden sprachen sind visuelle sprachen, die informationen durch handform, gesichtsausdruck, körperbewegung und weitere visuelle merkmale der gebärden sprecher vermitteln. Aufgrund der inhärenten begrenzung der möglichen kombinationen dieser visuellen elemente existieren in gebärden sprachen eine signifikante anzahl visuell nicht unterscheidbarer gebärden (VISigns), was die erkennungskapazität von vision-basierten neuronalen netzwerken einschränkt. Um dieses problem zu mildern, schlagen wir den Natural Language-Assisted Sign Language Recognition (NLA-SLR)-rahmen vor, der semantische informationen in Glossen (gebärdenbezeichnungen) nutzt. Erstens schlagen wir für VISigns mit ähnlichen semantischen bedeutungen eine sprachbewusste label-smoothing-methode vor, bei der weiche labels für jede trainingsgebärde generiert werden, deren glättungsgewichte aus den normalisierten semantischen ähnlichkeiten zwischen den Glossen berechnet werden, um das trainieren zu erleichtern. Zweitens präsentieren wir eine intermodale Mixup-technik für VISigns mit unterschiedlichen semantischen bedeutungen, die visuelle und Gloss-merkmale mischt, um die trennbarkeit verschiedener gebärden unter der aufsicht von gemischten labels weiter zu maximieren. Zusätzlich führen wir einen neuen backbone, das Video-Keypoint-Netzwerk, ein, das sowohl RGB-videos als auch menschliche körperebenenpunkte modelliert und wissens aus gebärdenvideos mit unterschiedlichen zeitlichen empfindungsfeldern ableitet. Empirisch erreicht unsere methode state-of-the-art-ergebnisse auf drei weit verbreiteten benchmarks: MSASL, WLASL und NMFs-CSL. Der code ist unter https://github.com/FangyunWei/SLRT verfügbar.