
要約
3Dインスタンスセグメンテーションは、ロボット工学や拡張現実(AR)など多岐にわたる応用を持つため、近年、その需要が高まっている。2D画像が環境の射影観測に過ぎないのに対し、3Dモデルは遮蔽やスケールの曖昧性を伴わずにシーンの計測的再構成を可能にする。本論文では、「3Dオキュパシー・サイズ」として、各インスタンスが占めるボクセル数を定義する。この指標は予測の堅牢性に優れており、これを基盤として、オキュパシー情報を意識した3Dインスタンスセグメンテーション手法であるOccuSegを提案する。本手法はマルチタスク学習により、オキュパシー信号と埋め込み表現を同時に生成するが、空間的埋め込みと特徴埋め込みのスケールに応じた学習戦略をそれぞれ異なる形で設計している。クラスタリングスキームは、予測されたオキュパシー・サイズとクラスタ内オキュパシー・サイズとの信頼性の高い比較に依存しており、これにより困難なサンプル(ハードサンプル)が正しくクラスタリングされ、過剰な分割(オーバーセグメンテーション)を回避できる。提案手法は、ScanNetV2、S3DIS、SceneNNの3つの実世界データセットにおいて、最先端の性能を達成しつつ、高い効率性を維持している。