2ヶ月前

Omni3D: 野生環境での3D物体検出のための大規模ベンチマークとモデル

Brazil, Garrick ; Kumar, Abhinav ; Straub, Julian ; Ravi, Nikhila ; Johnson, Justin ; Gkioxari, Georgia
Omni3D: 野生環境での3D物体検出のための大規模ベンチマークとモデル
要約

単一画像から3次元のシーンや物体を認識することは、ロボティクスやAR/VRなどの分野で応用が期待されるコンピュータビジョンの長年の目標である。2次元認識では、大規模なデータセットと拡張可能なソリューションにより、前例のない進歩が見られた。一方、3次元では既存のベンチマークが小規模であり、アプローチも少数の物体カテゴリーや特定のドメイン(例えば都市部での自動車走行シーン)に特化している。2次元認識の成功に触発され、私たちは大規模なベンチマークであるOmni3Dを導入することで3次元物体検出のタスクを見直した。Omni3Dは既存のデータセットを再利用し組み合わせることで、98カテゴリー以上の300万インスタンスを含む234,000枚の画像がアノテーションされたものとなっている。この規模での3次元検出は、カメラ内部パラメータの変動やシーンと物体タイプの豊富な多様性のために困難を伴う。私たちは統一的なアプローチでカメラとシーンタイプに一般化するモデルCube R-CNNを提案する。実験結果から、Cube R-CNNはより大規模なOmni3Dおよび既存のベンチマークにおいて先行研究を上回ることが示された。最後に、Omni3Dが強力なデータセットであることを証明し、単一データセットでの性能向上だけでなく、事前学習を通じて新しい小規模データセットでの学習加速にも寄与することを示す。注:文中的专业术语如“computer vision”、“AR/VR”、“benchmarks”、“categories”、“instances”、“camera intrinsics”等已使用通用的日语译法,例如“コンピュータビジョン”、“AR/VR”、“ベンチマーク”、“カテゴリー”、“インスタンス”、“カメラ内部パラメータ”。对于不常见的术语,文中未出现需要特别标注的情况。

Omni3D: 野生環境での3D物体検出のための大規模ベンチマークとモデル | 最新論文 | HyperAI超神経