HyperAIHyperAI
vor 9 Tagen

Stochastische feinabgestimmte Etikettierung mehrstufiger Signenglossen für die kontinuierliche Gebärdenspracherkennung

{Brian Mak, Zhe Niu}
Stochastische feinabgestimmte Etikettierung mehrstufiger Signenglossen für die kontinuierliche Gebärdenspracherkennung
Abstract

In diesem Artikel stellen wir eine neuartige stochastische Modellierung verschiedener Komponenten eines kontinuierlichen Signalsprachenerkennungssystems (Continuous Sign Language Recognition, CSLR) vor, das auf einem Transformer-Encoder und Connectionist Temporal Classification (CTC) basiert. Insbesondere modellieren wir jede Sign-Glosse mit mehreren Zuständen, wobei die Anzahl der Zustände eine kategoriale Zufallsvariable ist, die einer gelernten Wahrscheinlichkeitsverteilung folgt. Dadurch erhalten wir stochastische, feinkörnige Etiketten, die zur Trainingsphase des CTC-Decoders dienen. Weiterhin schlagen wir eine stochastische Frame-Abwurf-Methode und eine Gradienten-Stop-Methode vor, um das gravierende Überanpassungsproblem beim Training des Transformer-Modells mit CTC-Verlust zu bewältigen. Diese beiden Ansätze reduzieren zudem die Trainingsrechenkosten erheblich sowohl hinsichtlich Zeit als auch Speicherplatz. Wir evaluieren unser Modell anhand gängiger CSLR-Datensätze und zeigen dessen Wirksamkeit im Vergleich zu aktuellen State-of-the-Art-Verfahren.