CogDDN: 認知的ニーズに基づくナビゲーションと意思決定の最適化および二重過程思考

モバイルロボットは、人間の要望を満たすために未知で非構造化された環境をナビゲートし、対話することがますます求められています。ニーズ駆動型ナビゲーション(Demand-driven Navigation: DDN)は、オブジェクトの位置が不明であっても、人間の意図を暗黙的に認識し、オブジェクトを特定および位置決めする機能をロボットに提供します。しかし、従来のデータ駆動型DDN手法はモデル訓練や意思決定のために事前に収集したデータに依存しており、未見のシナリオでの汎化能力が制限されています。 本論文では、CogDDNと呼ばれるVLM(Vision-Language Model)ベースのフレームワークを提案します。このフレームワークは、高速思考システムと低速思考システムを統合し、ユーザの要望を達成するために重要なキーオブジェクトを選択的に識別することで、人間の認知と学習メカニズムを模倣します。CogDDNは検出されたオブジェクトと与えられた指示との意味的な整合性を確保することにより、適切な目標オブジェクトを識別します。さらに、迅速かつ効率的な意思決定を行うヒューリスティックプロセスと過去のエラーを分析し、それらを知識ベースに蓄積して継続的に性能向上を行うアナリティックプロセスからなる二重過程意思決定モジュールを取り入れています。チェーン・オブ・サウンド(Chain of Thought: CoT)推論により意思決定プロセスが強化されます。 AI2Thor シミュレータ上で ProcThor データセットを使用した広範なクローズドループ評価では、CogDDN が単一視点カメラのみを使用する方法よりも 15% 高い性能を示し、ナビゲーション精度と適応性において大幅な改善が確認されました。プロジェクトページは このURL で利用可能です。 注:「チェーン・オブ・サウンド」は一般的には「チェーン・オブ・サーチ」や「思考連鎖」と訳されることが多いですが、「Chain of Thought」であることを明確にするため、「チェーン・オブ・サウンド(Chain of Thought: CoT)」としています。