BSL-1K : Augmenter à grande échelle la reconnaissance des langues des signes co-articulées en utilisant les indices de mâchonnement

Les progrès récents dans la classification fine des gestes et des actions, ainsi que dans la traduction automatique, suggèrent que la reconnaissance automatique des langues des signes pourrait devenir une réalité. Un obstacle majeur à l’avancement vers cet objectif réside dans le manque de données d’entraînement adéquates, dû à la grande complexité de l’annotation des signes et à l’offre limitée d’annotateurs qualifiés. Dans ce travail, nous proposons une nouvelle approche évolutif pour la collecte de données destinée à la reconnaissance des signes dans des vidéos continues. Nous exploitons des sous-titres faiblement alignés provenant de vidéos diffusées à la télévision, combinés à une méthode de détection de mots-clés, afin d’identifier automatiquement des instances de signes pour un vocabulaire de 1 000 signes au sein de 1 000 heures de vidéo. Nous apportons les contributions suivantes : (1) Nous montrons comment utiliser les indices de mimiques orales des signants pour obtenir des annotations de haute qualité à partir de données vidéo — le résultat est le jeu de données BSL-1K, une collection de signes en langue des signes britannique (BSL) d’une ampleur inédite ; (2) Nous démontrons que BSL-1K peut être utilisé pour entraîner des modèles de reconnaissance des signes performants, capables de traiter les signes coarticulés en BSL, et que ces modèles constituent également un excellent pré-entraînement pour d’autres langues des signes et pour diverses benchmarks — nous surpassons l’état de l’art sur les benchmarks MSASL et WLASL ; enfin, (3) nous proposons de nouveaux jeux d’évaluation à grande échelle pour les tâches de reconnaissance et de localisation des signes, et fournissons des modèles de base que nous espérons stimuleront la recherche dans ce domaine.