Reconnaissance de la parole et des gestes audio-visuels par les capteurs des dispositifs mobiles
La reconnaissance vocale audio-visuelle (AVSR) constitue l'une des solutions les plus prometteuses pour une reconnaissance vocale fiable, en particulier lorsque le signal audio est altéré par du bruit. Des informations visuelles supplémentaires peuvent être exploitées aussi bien pour la lecture labiale automatique que pour la reconnaissance de gestes. Les gestes manuels représentent une forme de communication non verbale et peuvent jouer un rôle fondamental dans les systèmes modernes d’interaction homme-machine. Actuellement, les modalités audio et vidéo sont facilement accessibles grâce aux capteurs des dispositifs mobiles. Toutefois, aucune solution « out-of-the-box » n’est disponible pour la reconnaissance automatique à la fois de la parole et des gestes audio-visuels. Cette étude présente deux architectures de modèles basées sur des réseaux de neurones profonds : l’une dédiée à la reconnaissance vocale audio-visuelle (AVSR), l’autre à la reconnaissance de gestes. La principale originalité dans le domaine de l’AVSR réside dans les stratégies d’ajustement fin (fine-tuning) appliquées aux caractéristiques visuelles et acoustiques, ainsi que dans le modèle end-to-end proposé, qui intègre trois approches de fusion de modalités : au niveau de la prédiction, au niveau des caractéristiques et au niveau du modèle. Quant à la reconnaissance de gestes, la nouveauté principale réside dans un ensemble unique de caractéristiques spatio-temporelles, incluant celles qui prennent en compte les informations d’articulation labiale. Étant donné l’absence de jeux de données disponibles pour cette tâche combinée, nous avons évalué nos méthodes sur deux corpus à grande échelle distincts — LRW et AUTSL — et obtenu de meilleurs résultats que les méthodes existantes, tant pour la reconnaissance vocale audio-visuelle que pour la reconnaissance de gestes. Nous avons atteint une précision AVSR de 98,76 % sur le jeu de données LRW et un taux de reconnaissance de gestes de 98,56 % sur AUTSL. Ces résultats démontrent non seulement la haute performance de la méthodologie proposée, mais également la faisabilité fondamentale de reconnaître à la fois la parole audio-visuelle et les gestes à l’aide des capteurs des dispositifs mobiles.