11日前

3DシーンインスタンスセグメンテーションのためのSuperpoint Transformer

Jiahao Sun, Chunmei Qing, Junpeng Tan, Xiangmin Xu

要約

既存の大多数の手法は、3Dオブジェクト検出や3Dセマンティックセグメンテーションに用いられるモデルを拡張することで、3Dインスタンスセグメンテーションを実現している。しかし、こうした非直感的なアプローチには以下の2つの課題がある。1）不正確なバウンディングボックスや不十分なセマンティック予測が、全体の3Dインスタンスセグメンテーションフレームワークの性能を制限する。2）既存の手法では、集約（aggregation）を伴う時間のかかる中間ステップが必要となる。これらの問題を解決するため、本論文ではSuperpoint Transformerを基盤とする新しいエンドツーエンド型3Dインスタンスセグメンテーション手法、SPFormerを提案する。SPFormerは、点群から潜在的な特徴をスーパーポイント（superpoints）にグループ化し、オブジェクト検出やセマンティックセグメンテーションの結果に依存せずに、クエリベクトルを用いて直接インスタンスを予測する。このフレームワークの鍵となるのは、トランスフォーマーを用いた新規なクエリデコーダであり、スーパーポイント間のクロスアテンション機構を通じてインスタンス情報を捉え、インスタンスのスーパーポイントマスクを生成する。このマスクに基づく二部マッチングにより、SPFormerは中間集約ステップを不要とし、ネットワークの学習と推論を高速化できる。ScanNetv2およびS3DISベンチマーク上での広範な実験により、本手法が簡潔かつ効率的であることが実証された。特に、ScanNetv2の隠しテストセットにおいて、mAPで既存の最先端手法を4.3%上回り、同時に高速な推論速度（1フレームあたり247ms）を維持している。コードは以下のURLから公開されている：https://github.com/sunjiahao1999/SPFormer。