HyperAIHyperAI
il y a un mois

CogDDN : Une Navigation Guidée par la Demande Cognitive avec Optimisation de la Décision et Pensée à Deux Processus

Yuehao Huang, Liang Liu, Shuangming Lei, Yukai Ma, Hao Su, Jianbiao Mei, Pengxiang Zhao, Yaqing Gu, Yong Liu, Jiajun Lv
CogDDN : Une Navigation Guidée par la Demande Cognitive avec Optimisation de la Décision et Pensée à Deux Processus
Résumé

Les robots mobiles sont de plus en plus sollicités pour naviguer et interagir dans des environnements inconnus et non structurés afin de répondre aux besoins humains. La navigation guidée par la demande (DDN) permet aux robots d'identifier et de localiser des objets en fonction de l'intention implicite de l'humain, même lorsque les emplacements des objets sont inconnus. Cependant, les méthodes DDN traditionnelles basées sur les données dépendent de données précollectées pour l'entraînement du modèle et la prise de décision, ce qui limite leur capacité de généralisation dans des scénarios inédits. Dans cet article, nous proposons CogDDN, un cadre basé sur les modèles linguistiques visuels (VLM) qui imite les mécanismes cognitifs et d'apprentissage humains en intégrant des systèmes de pensée rapide et lente, ainsi qu'en identifiant sélectivement les objets clés nécessaires à la satisfaction des demandes utilisateur. CogDDN identifie les objets cibles appropriés en alignant sémantiquement les objets détectés avec les instructions fournies. De plus, il intègre un module de prise de décision à double processus, comprenant un Processus Heuristique pour des décisions rapides et efficaces, et un Processus Analytique qui analyse les erreurs passées, les accumule dans une base de connaissances et améliore continuellement les performances. Le raisonnement par chaîne de pensée (CoT) renforce le processus de prise de décision. Des évaluations en boucle fermée approfondies sur le simulateur AI2Thor avec le jeu de données ProcThor montrent que CogDDN surpassent les méthodes uniquement basées sur une caméra monoculaire d'une marge de 15 %, démontrant des améliorations significatives en termes de précision et d'adaptabilité lors de la navigation. La page du projet est disponible à cette adresse URL : [this https URL].