Approche d’agrégation multimodale pour la navigation intérieure vision-voix avec mémoire et méta-apprentissage

La vision et la voix constituent deux éléments essentiels pour l’interaction et l’apprentissage des agents. Dans cet article, nous présentons un nouveau modèle de navigation intérieure appelé Memory Vision-Voice Indoor Navigation (MVV-IN), qui reçoit des commandes vocales et analyse des informations multimodales issues de l’observation visuelle afin d’améliorer la compréhension de l’environnement par les robots. Nous utilisons des images RGB simples prises par une caméra monoscopique en vue subjective. Nous intégrons également un mécanisme d’attention auto-référentielle afin de maintenir l’attention de l’agent sur les zones clés. La mémoire est cruciale pour éviter que l’agent ne répète inutilement certaines tâches et pour lui permettre de s’adapter efficacement à de nouveaux environnements ; nous faisons donc appel à l’apprentissage métacognitif. Nous avons expérimenté diverses fonctionnalités fonctionnelles extraites à partir des observations visuelles. Des expériences comparatives démontrent que notre méthode surpasser les meilleures approches existantes.