2ヶ月前
RVT-2: 少数のデモンストレーションから精密な操作を学習する
Ankit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox

要約
本研究では、言語指示に基づいて複数の3次元操作タスクを解決できるロボットシステムの構築方法について考察します。産業および家庭用領域で有用となるためには、このシステムが少数のデモンストレーションから新しいタスクを学習し、正確に解決することが必要です。PerActやRVTなどの先行研究はこの問題を取り上げていますが、高精度を要するタスクにおいてしばしば困難を抱えています。本研究では、これらのシステムをより効果的かつ精密に、さらに高速化する方法を探ります。アーキテクチャとシステムレベルでの改善点を組み合わせることで、前モデルRVTよりも訓練時に6倍速く、推論時に2倍速いマルチタスク3次元操作モデルRVT-2を提案します。RVT-2はRLBenchにおいて新たな最先端の成果を達成し、成功率を65%から82%に向上させました。また、現実世界でも効果的であり、プラグの取り外しや挿入など高精度が必要なタスクをわずか10回のデモンストレーションで学習することができます。視覚的な結果やコード、学習済みモデルは以下のウェブサイトで提供されています: https://robotic-view-transformer-2.github.io/。