2ヶ月前
Mask3D: 3DセマンティックインスタンスセグメンテーションのためのMask Transformer
Schult, Jonas ; Engelmann, Francis ; Hermans, Alexander ; Litany, Or ; Tang, Siyu ; Leibe, Bastian

要約
現代の3Dセマンティックインスタンスセグメンテーション手法は、専門的な投票メカニズムと慎重に設計された幾何学的クラスタリング技術に大きく依存しています。最近の物体検出や画像セグメンテーションにおけるTransformerベースの手法の成功を基盤として、私たちは初めて3Dセマンティックインスタンスセグメンテーション向けのTransformerベースのアプローチを提案します。当該モデル(Mask3D)では、各物体インスタンスがインスタンスクエリとして表現されます。Transformerデコーダーを使用することで、これらのインスタンスクエリは多次元で点群特徴に注意を払うことで学習されます。点特徴と組み合わせることで、インスタンスクエリは並列的にすべてのインスタンスマスクを直接生成します。Mask3Dは、現行の最先端アプローチに対していくつかの優位性を持っています。それは(1)手動で選択された幾何学的特性(例:中心点)を必要とする投票スキームに依存せず、(2)手動調整が必要なハイパーパラメータ(例:半径)を必要とする幾何学的グループ化メカニズムにも依存せず、(3)直接インスタンスマスクを最適化する損失関数を可能にするという点です。Mask3DはScanNetテストセット(+6.2 mAP)、S3DIS 6-foldクロスバリデーションセット(+10.1 mAP)、STPLS3Dセット(+11.2 mAP)、およびScanNet200テストセット(+12.4 mAP)において新たな最先端性能を達成しました。