Command Palette

Search for a command to run...

13日前

DexFlyWheel:多指灵巧操作向けスケーラブルかつ自己改善型データ生成フレームワーク

DexFlyWheel:多指灵巧操作向けスケーラブルかつ自己改善型データ生成フレームワーク

要約

デキストラスな操作は、ロボットの実世界応用における能力を進化させる上で不可欠であるが、多様性に富み高品質なデータセットは依然として稀少である。既存のデータ収集手法は、人間の遠隔操作に依存するものや、大量の人的工学的介入を要するもの、あるいは多様性に乏しいデータを生成するものがあり、いずれもスケーラビリティと汎化能力の制限をもたらしている。本論文では、自己改善サイクルを用いて継続的にデータの多様性を豊かにする、スケーラブルなデータ生成フレームワーク「DexFlyWheel」を提案する。効率的な初期デモンストレーション(seed demonstrations)のウォームアップから始まり、DexFlyWheelは反復的なサイクルを経てデータセットを拡張する。各サイクルは、模倣学習(Imitation Learning, IL)、残差強化学習(residual Reinforcement Learning, RL)、ロールアウト軌道の収集、およびデータ拡張を統合したクローズドループパイプラインに従う。具体的には、ILによりデモンストレーションから人間のような行動を抽出し、残差RLによりポリシーの汎化性能を向上させる。学習されたポリシーを用いてシミュレーション内で軌道を生成し、その後、多様な環境および空間配置においてデータ拡張を施した上で次のサイクルへフィードバックする。繰り返しの反復を通じて、自己改善型のデータフライホイール効果が発現し、多様なシナリオをカバーするデータセットを生成することで、ポリシー性能のスケーリングを実現する。実験結果から、DexFlyWheelは4つの困難なタスクにおいて2,000を超える多様なデモンストレーションを生成することを確認した。当該データセット上で訓練されたポリシーは、チャレンジテストセットにおいて平均81.9%の成功率を達成し、デジタルツインを介して実世界への転移も成功させ、二腕持ち上げタスクにおいて78.3%の成功率を実現した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DexFlyWheel:多指灵巧操作向けスケーラブルかつ自己改善型データ生成フレームワーク | 論文 | HyperAI超神経