
要約
3Dインスタンスセグメンテーションは、シーン理解における基本的なタスクであり、ロボット工学やAR/VR分野における多様な応用が期待されている。近年、提案不要(proposal-free)な手法が多数提案され、優れた性能と高い効率性を示している。しかしながら、これらの手法はインスタンスの重心(centroid)を回帰するに強く依存しており、物体の境界を明示的に検出しないという課題を抱えており、特定の状況下では近接する複数の物体を誤って同一クラスタにグループ化してしまう可能性がある。本論文では、固定半径の3D空間内における隣接点のうち、同一インスタンスに属する点の割合として「領域純度(regional purity)」という新しい概念を定義する。直感的には、ある点が境界領域に属する確率を示す指標となる。領域純度の予測可能性を検証するため、既存の学習データを基にランダムなシーンを再現したトイトデータセットを構築する戦略を設計した。さらに、トイトデータを用いることで、領域純度の学習に対する「無料」のデータ拡張が可能となり、追加の実データの収集負荷を軽減できる。本研究では、セマンティッククラス、領域純度、オフセット、サイズをそれぞれ別々のブランチで予測する「領域純度誘導型ネットワーク(Regional Purity Guided Network, RPGN)」を提案する。予測された領域純度情報を用いて、クラスタリングアルゴリズムをガイドする。実験結果から、領域純度を活用することで、クラスタリング過程において過小セグメンテーション(under-segmentation)と過大セグメンテーション(over-segmentation)の両方の問題を同時に抑制できることが示された。