Das Verdampfen von zeitübergreifenden Kontexten für die kontinuierliche Gebärdensprachenerkennung

Die kontinuierliche Gebärdenspracherkennung (CSLR) zielt darauf ab, Glossen in einer Gebärdensprachvideoaufnahme zu erkennen. Moderne Ansätze weisen typischerweise zwei Module auf: ein räumliches Wahrnehmungsmodul und ein zeitliches Aggregationsmodul, die gemeinsam end-to-end trainiert werden. Bestehende Ergebnisse in [9, 20, 25, 36] deuten darauf hin, dass das räumliche Wahrnehmungsmodul – als frontales Element des Gesamtmodells zur Extraktion räumlicher Merkmale – häufig unzureichend trainiert ist. In dieser Arbeit führen wir zunächst empirische Studien durch und zeigen, dass ein flaches zeitliches Aggregationsmodul eine umfassendere Ausbildung des räumlichen Wahrnehmungsmoduls ermöglicht. Ein flaches zeitliches Aggregationsmodul kann jedoch sowohl lokale als auch globale zeitliche Kontextinformationen in der Gebärdensprache nicht ausreichend erfassen. Um dieses Dilemma zu lösen, schlagen wir ein cross-temporales Kontextaggregationsmodell (CTCA) vor. Konkret entwickeln wir ein Dual-Path-Netzwerk mit zwei Zweigen zur Wahrnehmung lokalen und globalen zeitlichen Kontextes. Darüber hinaus entwerfen wir ein Lernziel basierend auf cross-contextueller Wissensdistillation, um die beiden Kontextarten sowie sprachliche Vorwissen zu aggregieren. Die Wissensdistillation ermöglicht es dem resultierenden einbahnigen zeitlichen Aggregationsmodul, sowohl lokalen- als auch globalen zeitlichen und semantischen Kontext zu erfassen. Diese flache Struktur für die zeitliche Wahrnehmung fördert die Lernfähigkeit des räumlichen Wahrnehmungsmoduls. Umfangreiche Experimente auf anspruchsvollen CSLR-Benchmarks belegen, dass unsere Methode alle aktuellen State-of-the-Art-Verfahren übertrifft.