8ヶ月前

概要

トランスフォーマーは、長距離依存関係を捉える能力により、さまざまなコンピュータビジョンタスクで優れた性能を示しています。しかし、点群データに直接トランスフォーマーを適用することは、点の数に対する二次的な計算コストのため困難です。本論文では、ローカルとグローバルな形状コンテキストを低複雑度で捉えることを目的とした「自己位置付け点ベースのトランスフォーマー（SPoTr: Self-Positioning point-based Transformer）」を提案します。具体的には、このアーキテクチャはローカルセルフアテンションと自己位置付け点ベースのグローバルクロスアテンションから構成されています。自己位置付け点は入力形状に基づいて適応的に配置され、空間情報と意味情報を分離したアテンションによって表現力を向上させます。自己位置付け点を使用して、我々は新しいグローバルクロスアテンションメカニズムを提案します。これにより、グローバルセルフアテンションのスケーラビリティが向上し、少数の自己位置付け点のみを使用して注意重みを計算することが可能になります。実験結果は、形状分類、パーツセグメンテーション、シーンセグメンテーションなどの3つの点群タスクにおいてSPoTrの有効性を示しています。特に、ScanObjectNNデータセットでの形状分類において、我々が提案するモデルは従来の最良モデルに対して2.6%の精度向上を達成しました。また、自己位置付け点の解釈可能性について定性的な分析も提供しています。SPoTrのコードは https://github.com/mlvlab/SPoTr で公開されています。

ソースPDF コードを表示