Selbstwechselseitiges Distanzierungslernen für die kontinuierliche Gebärdenspracherkennung

In den letzten Jahren hat das tiefe Lernen die Entwicklung der video-basierten kontinuierlichen Gebärdenspracherkennung (Continuous Sign Language Recognition, CSLR) erheblich vorangetrieben. Aktuell besteht eine typische Netzwerkarchitektur für CSLR aus einem visuellen Modul, das sich auf räumliche und kurzfristige zeitliche Informationen konzentriert, gefolgt von einem kontextuellen Modul, das langfristige zeitliche Informationen erfasst, wobei die Connectionist Temporal Classification (CTC)-Verlustfunktion zur Netzwerktrainierung eingesetzt wird. Aufgrund der Beschränkungen der Kettenregel bei der Rückpropagation ist es jedoch schwierig, das visuelle Modul gezielt anzupassen, um optimierte visuelle Merkmale zu erzielen. Dadurch wird das kontextuelle Modul gezwungen, sich ausschließlich auf die Optimierung kontextueller Informationen zu konzentrieren, anstatt eine effiziente Balance zwischen visuellen und kontextuellen Informationen herzustellen. In diesem Artikel stellen wir eine Methode des selbst-mutuellen Wissensdistillation (Self-Mutual Knowledge Distillation, SMKD) vor, die sicherstellt, dass das visuelle und das kontextuelle Modul jeweils auf kurzfristige und langfristige Informationen fokussieren und gleichzeitig die Unterscheidungskraft beider Module verstärkt. Konkret teilen sich visuelles und kontextuelles Modul die Gewichte ihrer entsprechenden Klassifikatoren und werden gleichzeitig mit der CTC-Verlustfunktion trainiert. Darüber hinaus tritt ein Spitzenphänomen (spike phenomenon) häufig bei der Verwendung der CTC-Verlustfunktion auf. Obwohl dieses Phänomen hilfreich sein kann, um einige Schlüsselbilder einer Gloss (Gebärdenkomponente) zu identifizieren, führt es dazu, dass andere Bilder innerhalb einer Gloss ignoriert werden, was zu einer frühen Sättigung der visuellen Merkmale führt. Um dieses Problem zu mildern und die Sättigung im visuellen Modul zu reduzieren, wird eine Gloss-Segmentierung eingeführt. Wir führen Experimente auf zwei etablierten CSLR-Benchmarks durch: PHOENIX14 und PHOENIX14-T. Die experimentellen Ergebnisse belegen die Wirksamkeit der vorgeschlagenen SMKD-Methode.