
要約
3次元理解において点群セグメンテーションは中心的な役割を果たしているが、大規模なシーン全体に対して完全なラベル付けを行うには費用と時間がかかり、非効率である。この課題を解決するために、弱教師あり点群セマンティックセグメンテーションを対象とした、新たなエンドツーエンド学習可能なトランスフォーマーネットワーク「Point Central Transformer(PointCT)」を提案する。従来のアプローチとは異なり、本手法は中心点に基づくアテンション機構を用いて、3次元点のみに依存してラベル付き点が限られた状況下での課題に着目する。2段階の埋め込みプロセスを採用することで、アテンション機構は局所的な近傍領域を跨ぐグローバルな特徴を統合し、未ラベル点の表現力を効果的に向上させる。同時に、中心点とその特徴的な近傍間の相互関係は双方向的に整合される。さらに、位置エンコーディングを導入することで幾何学的特徴を強化し、全体的な性能向上を実現している。特に、追加の教師信号を必要とせずに、さまざまなラベル付き点の設定下で優れた性能を達成している。公開データセットS3DIS、ScanNet-V2、STPLS3Dにおける広範な実験により、本手法が他の最先端手法を上回る優位性を示している。