AdaBrowse : Navigateur vidéo adaptatif pour une reconnaissance continue efficace des langues des signes

Les vidéos brutes ont été démontrées posséder une redondance de caractéristiques considérable, dans de nombreux cas, une simple partie des trames suffisant déjà pour une reconnaissance précise. Dans ce travail, nous nous intéressons à savoir si cette redondance peut être efficacement exploitée afin de faciliter une inférence plus performante dans la reconnaissance continue de la langue des signes (CSLR). Nous proposons un nouveau modèle adaptatif (AdaBrowse) qui sélectionne dynamiquement une sous-suite la plus informative à partir de séquences vidéo d’entrée en modélisant ce problème comme une tâche de décision séquentielle. Plus précisément, nous utilisons d’abord un réseau léger pour effectuer un balayage rapide des vidéos d’entrée afin d’extraire des caractéristiques grossières. Ces caractéristiques sont ensuite alimentées dans un réseau de politique afin de sélectionner intelligemment une sous-suite à traiter. La sous-suite correspondante est ensuite inférée par un modèle CSLR classique pour la prédiction de phrases. Étant donné qu’uniquement une partie des trames est traitée dans cette procédure, les calculs totaux peuvent être considérablement réduits. En outre, au-delà de la redondance temporelle, nous explorons également la possibilité d’intégrer de manière fluide la redondance spatiale inhérente afin d’obtenir une efficacité accrue, c’est-à-dire en sélectionnant dynamiquement la résolution d’entrée la plus faible pour chaque échantillon ; ce modèle est désigné par AdaBrowse+. Des résultats expérimentaux étendus sur quatre grands jeux de données de CSLR — PHOENIX14, PHOENIX14-T, CSL-Daily et CSL — démontrent l’efficacité d’AdaBrowse et d’AdaBrowse+, en atteignant une précision comparable aux méthodes de pointe tout en offrant un débit 1,44 fois supérieur et une réduction de 2,12 fois des FLOPs. Des comparaisons avec d’autres réseaux CNN 2D couramment utilisés et d’autres méthodes efficaces adaptatives confirment la pertinence d’AdaBrowse. Le code est disponible à l’adresse suivante : \url{https://github.com/hulianyuyy/AdaBrowse}.