17日前

ConDaFormer:3次元点群理解のための局所構造強化を備えた分解型Transformer

Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Gui-Song Xia, Dacheng Tao
ConDaFormer:3次元点群理解のための局所構造強化を備えた分解型Transformer
要約

最近、Transformerは3次元点群の理解において注目されており、著しい進展が得られている。点群データには10万点を超える多数の点が含まれるため、グローバルな自己注意(self-attention)は実用的に不可能である。そのため、多くの手法ではTransformerを局所領域、例えば球状または立方体ウィンドウ内で適用するアプローチが提案されている。しかし、こうしたアプローチでも依然として多数のQuery-Keyペアが存在し、計算コストが高くなる問題がある。さらに、従来の手法は通常、線形投影によってQuery、Key、Valueを学習するが、局所的な3次元幾何構造をモデル化していない。本研究では、計算コストを低減しつつ局所幾何構造の事前知識を反映できる新しいTransformerブロック、ConDaFormerの開発に取り組んだ。技術的に、ConDaFormerは立方体ウィンドウを3つの直交する2次元平面に分解することで、類似範囲での注意機構をモデル化する際の点数を削減する。この分解操作により、計算複雑性を増加させることなく注意範囲を拡大できる利点があるが、一部の文脈情報を無視するという課題も生じる。これを補うために、注意機構の前後において深度方向畳み込み(depth-wise convolution)を導入する局所構造強化戦略を提案した。この手法は局所的な幾何情報を効果的に捉えることも可能である。これらの設計を活かすことで、ConDaFormerは長距離の文脈情報と局所的な事前知識の両方を捉えることが可能となる。その有効性は、複数の3次元点群理解ベンチマークにおける実験結果により確認された。コードは以下のURLで公開されている:https://github.com/LHDuan/ConDaFormer。

ConDaFormer:3次元点群理解のための局所構造強化を備えた分解型Transformer | 最新論文 | HyperAI超神経