HyperAIHyperAI
vor 9 Tagen

Denoising-Contrastive Alignment für die kontinuierliche Signspracherkennung

Leming Guo, Wanli Xue, Shengyong Chen
Denoising-Contrastive Alignment für die kontinuierliche Signspracherkennung
Abstract

Die kontinuierliche Gebärdenspracherkennung (Continuous Sign Language Recognition, CSLR) zielt darauf ab, in ungeschnittenen Gebärdensprachvideos enthaltene Signe in textuelle Glossen zu erkennen. Eine zentrale Herausforderung der CSLR besteht darin, eine effektive Quermodalkorrelierung zwischen Videosequenzen und Glossensequenzen zu erreichen, um die Video-Darstellung zu verbessern. Derzeitige Ansätze zur Quermodalkorrelierung vernachlässigen jedoch oft die Rolle der textuellen Grammatik, die bei der Lernung des globalen zeitlichen Kontexts die Video-Darstellung leiten könnte, was sich negativ auf die Erkennungsgenauigkeit auswirkt. Um diese Limitation zu überwinden, schlagen wir ein Denoising-Contrastives Alignment (DCA)-Paradigma vor. DCA nutzt kreativ die textuelle Grammatik, um die Video-Darstellung durch zwei ergänzende Ansätze zu verbessern: die Modellierung der Instanzkorrespondenz zwischen Signen und Glossen aus einer Unterscheidungs- und die Ausrichtung ihres globalen Kontexts aus einer generativen Perspektive. Konkret erreicht DCA eine flexible Korrespondenz auf Instanzebene zwischen Signen und Glossen mittels eines contrastiven Verlustes. Auf dieser Basis modelliert DCA die globale Kontextausrichtung zwischen Videosequenzen und Glossen durch das Entstören der Gloss-Darstellung unter Anleitung der Video-Darstellung. Zudem führt DCA eine Gradientenmodulation ein, um die Ausrichtungs- und Erkennungsgradienten zu optimieren und einen effektiveren Lernprozess sicherzustellen. Durch die Integration von gloss-weisen und globalen Kontextkenntnissen verbessert DCA die Video-Darstellung für CSLR-Aufgaben signifikant. Experimentelle Ergebnisse an mehreren öffentlichen Benchmarks bestätigen die Wirksamkeit von DCA und die Machbarkeit seiner Verbesserung der Video-Darstellung.

Denoising-Contrastive Alignment für die kontinuierliche Signspracherkennung | Neueste Forschungsarbeiten | HyperAI