한 달 전

CogDDN: 인지적 수요 기반 네비게이션 및 의사결정 최적화와 이중과정 사고

Yuehao Huang, Liang Liu, Shuangming Lei, Yukai Ma, Hao Su, Jianbiao Mei, Pengxiang Zhao, Yaqing Gu, Yong Liu, Jiajun Lv
CogDDN: 인지적 수요 기반 네비게이션 및 의사결정 최적화와 이중과정 사고
초록

모바일 로봇은 인간의 요구를 충족시키기 위해 알려지지 않고 구조화되지 않은 환경에서 항해하고 상호작용하는 것이 점점 더 필요해지고 있습니다. 수요 주도형 항해(Demand-driven navigation, DDN)는 물체 위치가 알려져 있지 않더라도 암시적인 인간 의도에 기반하여 물체를 식별하고 위치를 찾을 수 있게 해줍니다. 그러나 전통적인 데이터 주도형 DDN 방법은 모델 학습과 의사결정을 위해 사전 수집된 데이터에 의존하므로, 미처 보지 못한 시나리오에서는 일반화 능력이 제한됩니다. 본 논문에서는 VLM(Visual-Language Model) 기반 프레임워크인 CogDDN을 제안합니다. 이 프레임워크는 빠른 사고 시스템과 느린 사고 시스템을 통합하여 인간의 인지 및 학습 메커니즘을 모방하며, 사용자의 요구를 충족하기 위한 핵심 물체를 선택적으로 식별합니다. CogDDN은 감지된 물체와 주어진 지시사항을 의미론적으로 일치시키어 적절한 목표물체를 식별합니다. 또한, 빠르고 효율적인 결정을 내리는 휴리스틱 과정(Heuristic Process)과 과거 오류를 분석하여 이를 지식 기반에 누적시키며 성능을 지속적으로 개선하는 분석적 과정(Analytic Process)으로 구성된 이원적 의사결정 모듈을 포함합니다. 사고의 연쇄(Chain of Thought, CoT) 추론은 의사결정 과정을 강화합니다. AI2Thor 시뮬레이터에서 ProcThor 데이터셋을 사용한 광범위한 폐루프 평가 결과, CogDDN은 단일 뷰 카메라만 사용하는 방법보다 15% 우수한 성능을 보여주어 항해 정확성과 적응성에서 상당한 개선이 이루어졌음을 입증하였습니다. 본 프로젝트 페이지는 다음 https URL에서 확인할 수 있습니다.