
本稿では、3Dインスタンスを意味情報、位置情報、形状情報を含む1次元ベクトルとして表現する「インスタンスカーネル(instance kernels)」と呼ばれる3Dインスタンス表現を提案する。インスタンスカーネルを用いることで、シーン全体を単純にカーネルスキャンするだけでインスタンスマスクの推論が可能となり、従来の3Dインスタンスセグメンテーションパイプラインでしばしば必要とされる提案(proposal)やヒューリスティックなクラスタリングアルゴリズムへの依存を大幅に軽減できる。インスタンスカーネルのアイデアは、2D/3Dインスタンスセグメンテーションにおけるダイナミック畳み込み(dynamic convolutions)の最近の成功に着想を得ている。しかし、ポイントクラウドデータの無秩序かつ非構造的な性質により、3Dインスタンスを適切に表現することは容易ではないことが明らかとなった。特に、インスタンスの局所化精度が低くなると、インスタンス表現の品質が著しく低下する。これを解決するために、我々は新たな3Dインスタンス符号化パラダイムを構築した。まず、インスタンスの中心点候補を潜在的に局所化する。次に、重複する候補を同時に統合し、統合された中心点の周囲のコンテキスト情報を収集するための候補統合スキームを設計し、それによってインスタンスカーネルを構成する。インスタンスカーネルが得られると、それらを条件として重みを動的に決定するダイナミック畳み込みを用いて、インスタンスマスクを再構成できる。本パイプラインは、動的カーネルネットワーク(DKNet)として実装されている。実験結果から、DKNetはScanNetV2およびS3DISデータセットにおいて、従来の最先端手法を上回る性能を発揮し、特にインスタンスの局所化精度が優れていることが示された。コードは以下のURLから公開されている:https://github.com/W1zheng/DKNet。