Command Palette
Search for a command to run...
Heeseong Shin Byeongho Heo Dongyoon Han Seungryong Kim Taekyung Kim

要約
事前学習された視覚表現は、模倣学習の発展に大きく貢献しているが、ポリシー学習中にモデルが固定されたままとなるため、しばしばタスクに依存しない特性を有する。本研究では、モデル自体の微調整を伴わずに、事前学習されたテキストから画像への拡散モデルを活用し、ロボット制御に適応する視覚表現を獲得する手法を検討する。しかしながら、他の視覚分野で成功を収めたテキスト条件の単純な適用は、制御タスクにおいてはほとんど効果が得られず、場合によっては逆効果となることを発見した。この現象の原因は、拡散モデルの学習データとロボット制御環境との間にあるドメインギャップに起因すると考えられ、制御に必要な特定かつ動的な視覚的情報を考慮した条件の導入が重要であると主張する。この観点から、本研究では、制御環境に適応する学習可能なタスクプロンプトと、フレームごとの細部を捉える視覚プロンプトを導入するORCAを提案する。新しく設計した条件を用いてタスク適応型の表現を実現した本手法は、さまざまなロボット制御ベンチマークにおいて最先端の性能を達成し、従来手法を顕著に上回った。