HyperAIHyperAI

Command Palette

Search for a command to run...

Zwei-Stream-Netzwerk für die Signspracherkennung und -übersetzung

Yutong Chen Ronglai Zuo Fangyun Wei Yu Wu Shujie Liu Brian Mak

Zusammenfassung

Signsprachen sind visuelle Sprachen, die manuelle Artikulationen und nicht-manuelle Elemente nutzen, um Informationen zu vermitteln. Bei der Signspracherkennung und -übersetzung kodieren die meisten bestehenden Ansätze RGB-Videos direkt in versteckte Darstellungen. RGB-Videos stellen jedoch rohe Signale mit erheblicher visueller Redundanz dar, wodurch der Encoder wichtige Informationen für das Verständnis von Signsprachen übersehen kann. Um dieses Problem zu mildern und dominänkenwissen, wie Handform und Körperbewegung, besser zu integrieren, führen wir einen dualen visuellen Encoder mit zwei getrennten Strömen ein, die sowohl die Rohvideos als auch die von einem etablierten Keypoint-Schätzer generierten Keypoint-Sequenzen modellieren. Um die Interaktion zwischen den beiden Strömen zu ermöglichen, untersuchen wir verschiedene Techniken, darunter bidirektionale laterale Verbindungen, ein Sign-Pyramid-Netzwerk mit zusätzlicher Überwachung und frame-basierte Selbst-Distillation. Das resultierende Modell heißt TwoStream-SLR und ist für die Signspracherkennung (SLR) geeignet. Durch die einfache Hinzufügung eines zusätzlichen Übersetzungsnetzwerks wird TwoStream-SLR zu einem Modell für die Signsprachübersetzung (SLT), TwoStream-SLT. Experimentell erreichen unsere Modelle TwoStream-SLR und TwoStream-SLT den Stand der Technik bei SLR- und SLT-Aufgaben auf einer Reihe von Datensätzen, darunter Phoenix-2014, Phoenix-2014T und CSL-Daily. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/FangyunWei/SLRT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zwei-Stream-Netzwerk für die Signspracherkennung und -übersetzung | Paper | HyperAI