3ヶ月前

SAT:3次元点群のセマンティックセグメンテーションのためのサイズ認識Transformer

Junjie Zhou, Yongping Xiong, Chinwai Chiu, Fangyu Liu, Xiangyang Gong
SAT:3次元点群のセマンティックセグメンテーションのためのサイズ認識Transformer
要約

Transformerモデルは点群セグメンテーションにおいて有望な性能を達成している。しかし、既存の多数のアテンション機構は、すべての点に対して同一の特徴学習パラダイムを適用しており、シーン内のオブジェクト間における顕著なサイズ差を無視している。本論文では、異なるサイズのオブジェクトに対して適切な受容 field(受容領域)を自動調整可能な「サイズ認識型Transformer(Size-Aware Transformer, SAT)」を提案する。本SATは、2段階のアプローチによりサイズ認識学習を実現する:まず各アテンション層にマルチスケール特徴を導入し、次に各点が自身の注目領域(attentive fields)を適応的に選択できるようにする。このアーキテクチャには、2つの重要な設計要素が含まれる。1つ目はマルチグレインアテンション(Multi-Granularity Attention, MGA)機構であり、遠方領域からのトークンを効率的に集約する問題と、1つのアテンション層内でのマルチスケール特徴の保持という2つの課題に対処する。具体的には、点とボクセル間のクロスアテンションを導入して第一の課題を解決し、標準的なマルチヘッド自己アテンションに基づくシャント戦略(shunted strategy)を用いて第二の課題を解決する。2つ目は、MGAによって出力された細粒度および粗粒度特徴に対して、各点ごとにアテンションスコアを動的に調整する「リアテンション(Re-Attention)モジュール」である。広範な実験結果により、SATがS3DISおよびScanNetV2データセットにおいて最先端の性能を達成することが示された。さらに、比較対象となるすべての手法と比較して、SATはカテゴリごとの性能バランスが最も優れており、異なるサイズのカテゴリを効果的にモデル化する能力の優位性が裏付けられている。本論文の受理後、コードおよびモデルは公開される予定である。