SlowFast-Netzwerk für die kontinuierliche Signerspracherkennung

Das Ziel dieser Arbeit ist die effektive Extraktion räumlicher und dynamischer Merkmale für die kontinuierliche Gebärdensprachenerkennung (Continuous Sign Language Recognition, CSLR). Um dies zu erreichen, nutzen wir ein zweipfadiges SlowFast-Netzwerk, bei dem jeder Pfad bei unterschiedlichen zeitlichen Auflösungen arbeitet, um räumliche Informationen (Handformen, Gesichtsausdrücke) und dynamische Informationen (Bewegungen) getrennt zu erfassen. Zusätzlich führen wir zwei speziell für die Eigenschaften der CSLR entworfene Merkmalsfusionstechniken ein: (1) Bidirektionale Merkmalsfusion (Bi-directional Feature Fusion, BFF), die den Austausch dynamischer Semantik in räumliche Semantik und umgekehrt ermöglicht; und (2) Pfad-Merkmalsverstärkung (Pathway Feature Enhancement, PFE), die die dynamischen und räumlichen Darstellungen durch Hilfsunternetzwerke bereichert, ohne zusätzliche Inferenzzeit zu erfordern. Dadurch wird die Stärkung räumlicher und dynamischer Darstellungen parallel gefördert. Wir zeigen, dass der vorgeschlagene Ansatz die derzeit beste Leistung auf gängigen CSLR-Datensätzen, einschließlich PHOENIX14, PHOENIX14-T und CSL-Daily, übertrifft.