1 个月前

CogDDN: 一种基于认知需求的导航方法,结合决策优化和双重加工思维

Yuehao Huang, Liang Liu, Shuangming Lei, Yukai Ma, Hao Su, Jianbiao Mei, Pengxiang Zhao, Yaqing Gu, Yong Liu, Jiajun Lv
CogDDN: 一种基于认知需求的导航方法,结合决策优化和双重加工思维
摘要

移动机器人越来越需要在未知和非结构化的环境中导航和互动,以满足人类的需求。需求驱动导航(Demand-Driven Navigation, DDN)使机器人能够根据隐含的人类意图识别和定位物体,即使这些物体的位置未知。然而,传统的数据驱动DDN方法依赖于预先收集的数据进行模型训练和决策,这限制了它们在未见过的场景中的泛化能力。本文提出了一种基于视觉语言模型(Vision-Language Model, VLM)的框架——CogDDN,该框架通过整合快速和慢速思维系统,并选择性地识别对满足用户需求至关重要的关键物体,模拟了人类的认知和学习机制。CogDDN通过语义对齐检测到的物体与给定指令来确定合适的靶标物体。此外,它还包含了一个双过程决策模块,由启发式过程(Heuristic Process)用于快速高效的决策和分析过程(Analytic Process),后者通过对过去的错误进行分析并将其积累在知识库中,持续改进性能。链式思维(Chain of Thought, CoT)推理进一步增强了决策过程。在AI2Thor模拟器上使用ProcThor数据集进行的大量闭环评估表明,CogDDN比仅使用单视图相机的方法提高了15%的性能,显著提升了导航精度和适应性。项目页面可在此https URL获取。