HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Ausrichtungsbeschränkung für die kontinuierliche Signspracherkennung

Yuecong Min Aiming Hao Xiujuan Chai Xilin Chen

Zusammenfassung

Visionbasierte kontinuierliche Gebärdenspracherkennung (Continuous Sign Language Recognition, CSLR) zielt darauf ab, unsegmentierte Gebärden aus Bildsequenzen zu erkennen. Überanpassung (Overfitting) stellt eine der zentralen Herausforderungen beim Training von CSLR-Modellen dar. Frühere Arbeiten zeigen, dass das iterative Trainingsverfahren zwar teilweise diesem Problem entgegenwirken kann, jedoch mit einem erheblichen Mehraufwand an Trainingszeit einhergeht. In dieser Studie untersuchen wir erneut das iterative Trainingsverfahren aus jüngeren CSLR-Ansätzen und stellen fest, dass eine ausreichende Ausbildung des Merkmalsextraktors entscheidend für die Bewältigung des Überanpassungsproblems ist. Darauf aufbauend schlagen wir eine Visual Alignment Constraint (VAC) vor, um den Merkmalsextraktor durch Alignmentsupervision zu stärken. Konkret besteht die vorgeschlagene VAC aus zwei Hilfsverlustfunktionen: Eine konzentriert sich ausschließlich auf visuelle Merkmale, während die andere die Vorhersagealignment zwischen dem Merkmalsextraktor und dem Alignmentsmodul erzwingt. Zusätzlich führen wir zwei Metriken ein, die das Überanpassungsverhalten durch Messung der Vorhersageinkonsistenz zwischen Merkmalsextraktor und Alignmentsmodul quantifizieren. Experimentelle Ergebnisse auf zwei anspruchsvollen CSLR-Datensätzen zeigen, dass die vorgeschlagene VAC CSLR-Netzwerke end-to-end trainierbar macht und eine konkurrenzfähige Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp