17日前
PatchFormer:パッチアテンションを備えた効率的なポイントトランスフォーマー
Zhang Cheng, Haocheng Wan, Xinyi Shen, Zizhao Wu

要約
ポイントクラウド学習コミュニティにおいて、従来のCNNからTransformerへのモデル移行が進んでおり、純粋なTransformerアーキテクチャは主要な学習ベンチマークにおいてトップレベルの精度を達成している。しかし、既存のポイントTransformerは、入力サイズに対して二次関数的(空間的および時間的両面で)に増加する大きなアテンションマップを生成する必要があるため、計算コストが非常に高くなるという課題を抱えている。この問題を解決するために、我々はアテンションマップを計算する際の基底を適応的に学習する「Patch ATtention(PAT)」を提案する。PATは、これらの基底に対する重み付き和を用いることで、グローバルな形状コンテキストを捉えながらも、入力サイズに対して線形の計算複雑度を実現する。さらに、異なるスケールの特徴間におけるアテンションを構築するための軽量な「Multi-Scale aTtention(MST)」ブロックを提案する。これにより、モデルはマルチスケールの特徴を効果的に活用できる。PATとMSTを統合したフレームワークとして、我々は「PatchFormer」と呼ばれるニューラルアーキテクチャを構築した。広範な実験により、本ネットワークは従来のポイントTransformerと比較して9.2倍の高速化を達成しつつ、一般的なポイントクラウド学習タスクにおいて同等の精度を実現することが示された。