Command Palette
Search for a command to run...

要約
ロボット制御における拡散モデル、特に視覚・言語・行動(VLA)および視覚・行動(VA)ポリシーは、顕著な能力を示している。しかし、大規模なインタラクションデータセットを収集するコストが高いため、その発展は制限されている。本研究では、追加のモデル学習を伴わずにポリシー性能を向上させる代替的な枠組みを提案する。驚くべきことに、我々は複数の親ポリシーを組み合わせた合成ポリシーが、いずれの親ポリシーよりも優れた性能を達成できることを実証する。本研究の貢献は以下の三つである。第一に、複数の拡散モデルから得られる分布スコアの凸結合が、個々のスコアよりも優れた1ステップ関数的目的関数をもたらす理論的基盤を確立する。さらに、Grönwall型のバウンドを用いて、この1ステップの改善が生成軌道全体にわたって伝播し、システム全体の性能向上をもたらすことを示す。第二に、これらの結果を受けて、訓練不要な手法である「一般ポリシー合成(General Policy Composition: GPC)」を提案する。GPCは、複数の事前学習済みポリシーの分布スコアを凸結合し、テスト時探索によって性能を向上させる。GPCは柔軟性に富み、VAおよびVLAモデルをはじめとする異種ポリシーのプラグアンドプレイな合成が可能であり、入力となる視覚モダリティにかかわらず、拡散モデルやフロー・マッチングに基づくポリシーの統合も可能である。第三に、広範な実証的検証を提供する。Robomimic、PushT、RoboTwinのベンチマークにおける実験および実機ロボットでの評価を通じて、GPCが多様なタスクにおいて一貫して性能と適応性を向上させることを確認した。また、代替的な合成演算子や重み付け戦略に対する分析から、GPCの成功に寄与するメカニズムに関する洞察が得られた。これらの結果により、既存のポリシーを活用することで制御性能を向上させるシンプルかつ効果的な手法として、GPCの有効性が確立された。