HyperAIHyperAI

Command Palette

Search for a command to run...

TCNet: Kontinuierliche Signalspracherkennung aus Trajektorien und korrelierten Regionen

Hui Lu Albert Ali Salah Ronald Poppe

Zusammenfassung

Ein zentrales Problem bei der kontinuierlichen Gebärdensprachenerkennung (CSLR) besteht darin, langfristige räumliche Wechselwirkungen über die Zeit aus Videoeingaben effizient zu erfassen. Um dieses Problem anzugehen, schlagen wir TCNet vor, ein hybrides Netzwerk, das räumlich-zeitliche Informationen effektiv aus Trajektorien und korrelierten Regionen modelliert. Der Trajektorien-Modul von TCNet transformiert Frames in ausgerichtete Trajektorien, die aus kontinuierlichen visuellen Tokens bestehen. Zudem wird für einen Abfrage-Token eine Selbst-Attention entlang der Trajektorie gelernt. Dadurch kann unser Netzwerk auch feinabgestimmte räumlich-zeitliche Muster, wie beispielsweise Fingerbewegungen, einer bestimmten bewegten Region gezielt erfassen. Der Korrelations-Modul von TCNet nutzt eine neuartige dynamische Aufmerksamkeitsmechanik, die irrelevanten Frame-Bereiche herausfiltert. Zudem weist er jedem Abfragetoken dynamische Schlüssel-Wert-Tokens aus korrelierten Regionen zu. Beide Innovationen reduzieren die Berechnungskosten und den Speicherverbrauch erheblich. Wir führen Experimente auf vier großskaligen Datensätzen durch: PHOENIX14, PHOENIX14-T, CSL und CSL-Daily. Unsere Ergebnisse zeigen, dass TCNet konsistent Leistungen auf dem Stand der Technik erreicht. Beispielsweise verbessern wir die bisher beste Leistung um 1,5 % und 1,0 % im Wortfehlerquote auf PHOENIX14 und PHOENIX14-T, jeweils.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp