Command Palette
Search for a command to run...
ODIN: 2次元および3次元セグメンテーションのための単一モデル
ODIN: 2次元および3次元セグメンテーションのための単一モデル
Ayush Jain Pushkal Katara Nikolaos Gkanatsios Adam W. Harley Gabriel Sarch Kriti Aggarwal Vishrav Chaudhary Katerina Fragkiadaki
概要
最新のモデルは、ScanNetなどの現代的な3Dセグメンテーションベンチマークにおいて、センサで取得したマルチビューRGB-D画像の後処理から得られるデータセット提供の3D点群を消費し、ラベリングを行います。これらのモデルは通常、ドメイン内での学習が行われ、大規模な2D事前学習を省略し、ポーズされたRGB-Dマルチビュー画像を特徴化する代替手法よりも優れた性能を発揮します。ポーズされた画像と後処理された3D点群を使用する方法間の性能差は、2Dと3D認識が異なるモデルアーキテクチャを必要とするという信念を助長してきました。本論文では、この見解に挑戦し、ODIN(Omni-Dimensional INstance Segmentation)と呼ばれるモデルを提案します。このモデルはトランスフォーマー構造を使用しており、2D内のビュー間情報統合と3Dクロスビュー間情報統合を交互に行います。これにより、2D RGB画像と3D点群の両方のセグメンテーションとラベリングが可能になります。トークンの位置エンコーディングを通じて2Dおよび3D特徴操作が区別され、2Dパッチトークンにはピクセル座標が、3D特徴トークンには3D座標がキャプチャされます。ODINはScanNet200、Matterport3DおよびAI2THOR 3Dインスタンスセグメンテーションベンチマークで最先端の性能を達成し、ScanNet、S3DISおよびCOCOでも競争力のある性能を示しています。特に、センサで取得した3D点群を使用する場合(3Dメッシュからサンプリングされた点群ではなく)、以前のすべての研究を超える大幅な性能向上が観察されました。また、指示可能なエンボディッドエージェントアーキテクチャにおける3D認識エンジンとして使用される際には、TEACh対話からのアクションベンチマークで新たな最先端性能を達成しました。当該プロジェクトに関するコードやチェックポイントはプロジェクトウェブサイト (https://odin-seg.github.io) で公開されています。