HyperAIHyperAI

Command Palette

Search for a command to run...

Localisation égocentrique multi-canaux audio-visuelle active de l'orateur

Hao Jiang Calvin Murdock Vamsi Krishna Ithapu

Résumé

Les dispositifs de réalité augmentée ont le potentiel d'améliorer la perception humaine et de permettre d'autres fonctionnalités d'assistance dans des environnements conversationnels complexes. Pour capturer efficacement le contexte audiovisuel nécessaire à la compréhension de ces interactions sociales, il est d'abord nécessaire de détecter et de localiser les activités vocales du porteur du dispositif et des personnes alentour. Ces tâches sont difficiles en raison de leur nature égocentrée : le mouvement de la tête du porteur peut provoquer un flou de mouvement, les personnes alentour peuvent apparaître sous des angles de vue difficiles, et il peut y avoir des occultations, un encombrement visuel, du bruit audio et une mauvaise luminosité. Dans ces conditions, les méthodes précédentes d'état de l'art pour la détection du locuteur actif ne donnent pas des résultats satisfaisants. Au lieu de cela, nous abordons le problème dans un nouveau cadre en utilisant à la fois des vidéos et des signaux audio provenant d'un tableau microphonique multicanaux. Nous proposons une nouvelle approche d'apprentissage profond bout-à-bout capable de fournir des résultats robustes pour la détection et la localisation des activités vocales. Contrairement aux méthodes précédentes, notre méthode localise les locuteurs actifs depuis toutes les directions possibles sur la sphère, même en dehors du champ de vision de la caméra, tout en détectant simultanément les activités vocales du porteur du dispositif. Nos expériences montrent que la méthode proposée donne des résultats supérieurs, peut fonctionner en temps réel et est robuste face au bruit et à l'encombrement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp