
要約
細かい操作タスク、たとえばコードリースの通しやバッテリーの差し込みなどは、正確な操作、接触力の精密な調整、閉ループ型の視覚フィードバックを必要とするため、ロボットにとって長年難しい課題とされてきました。こうしたタスクを実行するには、高価なロボットや高精度なセンサ、または慎重なキャリブレーションが必要となることが多く、設置や運用にコストと手間がかかります。では、学習技術を活用することで、低コストで精度の低いハードウェアでもこれらの細かい操作を実行可能になるでしょうか?本研究では、独自の遠隔操作インターフェースを用いて実際の動作データを収集し、エンド・トゥ・エンドの模倣学習を直接実行できる低コストシステムを提案します。しかし、模倣学習には自身の課題があり、特に高精度な領域では、ポリシーの誤差が時間とともに累積するリスクや、人間のデモンストレーションが非定常的であるという問題が生じます。こうした課題に対処するため、行動シーケンスの生成モデルを学習する、シンプルながらも新規なアルゴリズム「アクション・チャンキング・ウィズ・トランスフォーマー(ACT)」を開発しました。ACTを用いることで、わずか10分間のデモンストレーションデータで、透明な調味料容器の開け方やバッテリーの差し込みといった6つの難易度の高い実世界タスクを、80〜90%の成功確率で実現できました。プロジェクトウェブサイト:https://tonyzhaozh.github.io/aloha/