TCNet : Reconnaissance continue de la langue des signes à partir de trajectoires et de régions corrélées

Un défi majeur dans la reconnaissance continue des langues des signes (CSLR) consiste à capturer efficacement les interactions spatiales à longue portée au fil du temps à partir des vidéos. Pour relever ce défi, nous proposons TCNet, un réseau hybride qui modélise efficacement les informations spatio-temporelles à partir de trajectoires et de régions corrélées. Le module de trajectoires de TCNet transforme les images en trajectoires alignées composées de jetons visuels continus. En outre, pour chaque jeton de requête, une attention auto-apprenante est établie le long de la trajectoire. Ainsi, notre réseau peut se concentrer sur des motifs spatio-temporels fins, tels que les mouvements des doigts, dans une région spécifique en mouvement. Le module de corrélation de TCNet utilise un mécanisme d’attention dynamique novateur qui élimine les régions vidéo non pertinentes. En outre, il attribue des jetons clés-valeurs dynamiques provenant des régions corrélées à chaque jeton de requête. Ces deux innovations réduisent considérablement le coût computationnel et la mémoire requise. Nous avons mené des expériences sur quatre jeux de données à grande échelle : PHOENIX14, PHOENIX14-T, CSL et CSL-Daily. Nos résultats démontrent que TCNet atteint de manière cohérente des performances de pointe. Par exemple, nous améliorons de 1,5 % et 1,0 % le taux d’erreur mot sur PHOENIX14 et PHOENIX14-T, respectivement, par rapport à l’état de l’art précédent.