TCNet: Kontinuierliche Signalspracherkennung aus Trajektorien und korrelierten Regionen

Ein zentrales Problem bei der kontinuierlichen Gebärdensprachenerkennung (CSLR) besteht darin, langfristige räumliche Wechselwirkungen über die Zeit aus Videoeingaben effizient zu erfassen. Um dieses Problem anzugehen, schlagen wir TCNet vor, ein hybrides Netzwerk, das räumlich-zeitliche Informationen effektiv aus Trajektorien und korrelierten Regionen modelliert. Der Trajektorien-Modul von TCNet transformiert Frames in ausgerichtete Trajektorien, die aus kontinuierlichen visuellen Tokens bestehen. Zudem wird für einen Abfrage-Token eine Selbst-Attention entlang der Trajektorie gelernt. Dadurch kann unser Netzwerk auch feinabgestimmte räumlich-zeitliche Muster, wie beispielsweise Fingerbewegungen, einer bestimmten bewegten Region gezielt erfassen. Der Korrelations-Modul von TCNet nutzt eine neuartige dynamische Aufmerksamkeitsmechanik, die irrelevanten Frame-Bereiche herausfiltert. Zudem weist er jedem Abfragetoken dynamische Schlüssel-Wert-Tokens aus korrelierten Regionen zu. Beide Innovationen reduzieren die Berechnungskosten und den Speicherverbrauch erheblich. Wir führen Experimente auf vier großskaligen Datensätzen durch: PHOENIX14, PHOENIX14-T, CSL und CSL-Daily. Unsere Ergebnisse zeigen, dass TCNet konsistent Leistungen auf dem Stand der Technik erreicht. Beispielsweise verbessern wir die bisher beste Leistung um 1,5 % und 1,0 % im Wortfehlerquote auf PHOENIX14 und PHOENIX14-T, jeweils.