3次元シーンにおける意味的スーパーポイントツリーネットワークを用いたインスタンスセグメンテーション

3次元シーンにおけるインスタンスセグメンテーションは、シーン理解の多くの応用において基盤的な役割を果たしている。しかし、データの不規則性とインスタンス数の不確実性という複合的な要因により、依然として大きな課題である。最先端の手法は、主に点ごとの特徴をセマンティックレベルおよびインスタンスレベルで判別可能に学習する第一段階と、その後に独立した点のグループ化ステップを経てオブジェクトインスタンスを提案する一般的なパイプラインに依存している。このアプローチは有望ではあるが、以下の欠点を有している:(1) 第二段階はインスタンスセグメンテーションの主な目的によって監視されていないこと、(2) 点ごとの特徴学習とグループ化がデータの不規則性に対処する能力に劣っており、結果として断片化されたセグメンテーションが生じる可能性があること。これらの課題を解決するため、本研究では、シーン内の点からオブジェクトインスタンスを提案するエンドツーエンドの手法である「セマンティックスーパーポイントツリーネットワーク(SSTNet)」を提案する。SSTNetの鍵となるのは、スーパーポイントの学習済みセマンティック特徴に基づいて構築される中間段階のセマンティックスーパーポイントツリー(SST)であり、このツリーは中間ノードで探索・分割されることで、オブジェクトインスタンスの候補を生成する。また、誤ってインスタンス候補にグループ化される可能性のあるスーパーポイントを削除するためのリファインメントモジュール「CliqueNet」も設計した。ScanNetおよびS3DISのベンチマーク上での実験により、本手法の有効性を確認した。提出時点でのScanNet(V2)リーダーボードでは、2%高いmAPを達成し、2位の手法を上回るトップスコアを記録している。PyTorchによる実装コードは、https://github.com/Gorilla-Lab-SCUT/SSTNet にて公開されている。