Localisation égocentrique multi-canaux audio-visuelle active de l'orateur

Les dispositifs de réalité augmentée ont le potentiel d'améliorer la perception humaine et de permettre d'autres fonctionnalités d'assistance dans des environnements conversationnels complexes. Pour capturer efficacement le contexte audiovisuel nécessaire à la compréhension de ces interactions sociales, il est d'abord nécessaire de détecter et de localiser les activités vocales du porteur du dispositif et des personnes alentour. Ces tâches sont difficiles en raison de leur nature égocentrée : le mouvement de la tête du porteur peut provoquer un flou de mouvement, les personnes alentour peuvent apparaître sous des angles de vue difficiles, et il peut y avoir des occultations, un encombrement visuel, du bruit audio et une mauvaise luminosité. Dans ces conditions, les méthodes précédentes d'état de l'art pour la détection du locuteur actif ne donnent pas des résultats satisfaisants. Au lieu de cela, nous abordons le problème dans un nouveau cadre en utilisant à la fois des vidéos et des signaux audio provenant d'un tableau microphonique multicanaux. Nous proposons une nouvelle approche d'apprentissage profond bout-à-bout capable de fournir des résultats robustes pour la détection et la localisation des activités vocales. Contrairement aux méthodes précédentes, notre méthode localise les locuteurs actifs depuis toutes les directions possibles sur la sphère, même en dehors du champ de vision de la caméra, tout en détectant simultanément les activités vocales du porteur du dispositif. Nos expériences montrent que la méthode proposée donne des résultats supérieurs, peut fonctionner en temps réel et est robuste face au bruit et à l'encombrement.