HyperAIHyperAI

Command Palette

Search for a command to run...

SlowFast-Netzwerk für die kontinuierliche Signerspracherkennung

Junseok Ahn Youngjoon Jang Joon Son Chung

Zusammenfassung

Das Ziel dieser Arbeit ist die effektive Extraktion räumlicher und dynamischer Merkmale für die kontinuierliche Gebärdensprachenerkennung (Continuous Sign Language Recognition, CSLR). Um dies zu erreichen, nutzen wir ein zweipfadiges SlowFast-Netzwerk, bei dem jeder Pfad bei unterschiedlichen zeitlichen Auflösungen arbeitet, um räumliche Informationen (Handformen, Gesichtsausdrücke) und dynamische Informationen (Bewegungen) getrennt zu erfassen. Zusätzlich führen wir zwei speziell für die Eigenschaften der CSLR entworfene Merkmalsfusionstechniken ein: (1) Bidirektionale Merkmalsfusion (Bi-directional Feature Fusion, BFF), die den Austausch dynamischer Semantik in räumliche Semantik und umgekehrt ermöglicht; und (2) Pfad-Merkmalsverstärkung (Pathway Feature Enhancement, PFE), die die dynamischen und räumlichen Darstellungen durch Hilfsunternetzwerke bereichert, ohne zusätzliche Inferenzzeit zu erfordern. Dadurch wird die Stärkung räumlicher und dynamischer Darstellungen parallel gefördert. Wir zeigen, dass der vorgeschlagene Ansatz die derzeit beste Leistung auf gängigen CSLR-Datensätzen, einschließlich PHOENIX14, PHOENIX14-T und CSL-Daily, übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp