HyperAIHyperAI
il y a 17 jours

EasyCom : Un jeu de données de réalité augmentée pour soutenir les algorithmes de communication simplifiée en environnements bruyants

Jacob Donley, Vladimir Tourbabin, Jung-Suk Lee, Mark Broyles, Hao Jiang, Jie Shen, Maja Pantic, Vamsi Krishna Ithapu, Ravish Mehra
EasyCom : Un jeu de données de réalité augmentée pour soutenir les algorithmes de communication simplifiée en environnements bruyants
Résumé

La réalité augmentée (RA) en tant que plateforme possède un potentiel important pour atténuer le phénomène de cocktail party. Les casques de RA de prochaine génération pourraient exploiter des informations provenant d'une multitude de capteurs couvrant diverses modalités. L'entraînement et le test d'algorithmes de traitement du signal et d'apprentissage automatique, notamment pour des tâches telles que la formation de faisceau (beam-forming) et l'amélioration de la parole, nécessitent des données de haute qualité représentatives. À ce jour, selon les connaissances de l’auteur à la date de publication, aucun jeu de données disponible ne contient d’enregistrements synchronisés de données audio et vidéo multi-canaux en perspective égocentrique, accompagnés de mouvements dynamiques et de conversations dans un environnement bruyant. Dans ce travail, nous décrivons, évaluons et mettons à disposition un jeu de données comprenant plus de cinq heures de données multi-modales, utiles pour entraîner et tester des algorithmes visant à améliorer les interactions conversationnelles pour un utilisateur de lunettes de RA. Nous fournissons des résultats en termes d’intelligibilité, de qualité et d’amélioration du rapport signal sur bruit pour une méthode de référence, et montrons des améliorations sur tous les indicateurs testés. Le jeu de données que nous mettons à disposition inclut des enregistrements audio multi-canaux provenant d’un micro-array intégré aux lunettes de RA, des vidéos RGB à large champ de vision, des positions des sources vocales, des enregistrements audio provenant du micro du casque, des annotations d’activité vocale, des transcriptions de parole, des boîtes englobantes de la tête, ainsi que des étiquettes d’identification de la cible de la parole et des sources. Nous avons conçu et mettons à disposition ce jeu de données afin de stimuler la recherche sur les solutions multi-modales de RA visant à résoudre le problème du cocktail party.