
要約
画像認識におけるCNNの大きな成功に着想を得て、ビューベースの手法は3次元物体理解のために投影されたビューをモデル化するためにCNNを応用し、優れた性能を達成しました。しかし、マルチビューCNNモデルは異なるビュー間のパッチ間の通信をモデル化することができず、3次元物体認識の効果性が制限されています。最近、ビジョントランスフォーマーが画像認識で得た成功に触発され、3次元物体認識用のマルチビュービジョントランスフォーマー(MVT)を提案します。トランスフォーマーブロック内の各パッチ特徴量がグローバルな受容野を持つため、異なるビュー間のパッチ間の通信を自然に実現することができます。さらに、CNNと比較してはるかに少ない帰納的バイアスを持ちます。効果性と効率性の両方を考え、MVTに対してグローバル-ローカル構造を開発しました。ModelNet40およびModelNet10という2つの公開ベンチマークでの実験結果は、私たちのMVTの競争力のある性能を示しています。