DecisionNCE:インプリシットな好み学習を用いた身体化されたマルチモーダル表現

マルチモーダル事前学習は、自律ロボットにおける表現学習の三つの目標——1)局所的およびグローバルなタスク進行状況の抽出、2)視覚表現の時間的整合性の確保、3)軌道レベルでの言語的意味付与の捉え込み——を同時に達成する効果的な戦略である。既存の多数の手法はこれらを個別の目的関数によってアプローチしているが、その結果、しばしばサブオプティマルな解に収束する傾向がある。本論文では、画像系列から意味のあるタスク進行情報を同時に抽出し、言語指示と滑らかに統合できる、汎用的な統一目的関数を提案する。我々は、視覚的軌道が対応する言語指示と比べて不一致ペアよりも本質的により良い一致を示すという「暗黙の好み(implicit preferences)」の性質に着目し、適切な報酬再パラメータ化により、一般的に用いられるBradley-Terryモデルを表現学習に変換可能であることを発見した。この結果得られたフレームワークであるDecisionNCEは、InfoNCEスタイルの目的関数に類似しているが、決定行動タスクに特化して設計されており、局所的およびグローバルなタスク進行特徴を洗練された形で抽出するエンベッディング表現学習フレームワークを提供する。時間的整合性は暗黙の時間対照学習(implicit time contrastive learning)によって保証され、マルチモーダル統合符号化により軌道レベルでの指示の意味付与も確実に実現される。シミュレート環境および実機ロボットを用いた評価により、DecisionNCEが多様な下流ポリシー学習タスクを効果的に支援することが実証された。これは、統一された表現学習と報酬学習を実現する汎用的なソリューションとしての可能性を示している。プロジェクトページ:https://2toinf.github.io/DecisionNCE/