HyperAIHyperAI

Command Palette

Search for a command to run...

RVT:3次元オブジェクト操作のためのロボット視覚変換器

Ankit Goyal Jie Xu Yijie Guo Valts Blukis Yu-Wei Chao Dieter Fox

概要

3次元オブジェクトの操作において、明示的な3次元表現を構築する手法は、カメラ画像のみに依存する手法よりも優れた性能を発揮する。しかし、ボクセルのような明示的な3次元表現を用いることは、大きな計算コストを伴い、スケーラビリティに悪影響を及ぼす。本研究では、スケーラビリティと精度の両立を実現した、3次元操作向けのマルチビュー変換器「RVT」を提案する。RVTの主な特徴として、複数の視点間で情報を統合するアテンション機構と、ロボット作業空間周辺の仮想視点からカメラ入力を再描画する仕組みを挙げる。シミュレーションにおいて、1つのRVTモデルがRLBenchの18のタスク(計249のタスク変種)で良好に動作し、既存の最先端手法(PerAct)と比較して相対的成功率が26%向上した。また、同性能に到達するまでの学習速度はPerActの36倍速く、推論速度もPerActの2.3倍に達した。さらに、各タスクに対してわずか数例(約10例)のデモンストレーションで、RVTは現実世界において多様な操作タスクを実行可能である。視覚的結果、コード、および学習済みモデルは、https://robotic-view-transformer.github.io/ にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています