2ヶ月前

長距離グループ化トランスフォーマーを用いた多視点3D再構成

Yang, Liying ; Zhu, Zhenwei ; Lin, Xuxin ; Nong, Jian ; Liang, Yanyan
長距離グループ化トランスフォーマーを用いた多視点3D再構成
要約

現在、トランスフォーマーネットワークは多くのコンピュータビジョンタスクにおいて優れた性能を示しています。このパラダイムに従うマルチビュー3D再構成アルゴリズムでは、大量のビュー入力に対処する際、自己注意処理が複雑な画像トークン(image tokens)を扱う必要があります。情報量の呪いにより、モデル学習は極めて困難になります。この問題を緩和するために、最近の手法では各ビューを表すトークン数を圧縮したり、異なるビュー間のトークンの注意操作を破棄したりしています。しかし、これらは明らかに性能に悪影響を与えます。そこで、我々は分割統治法に基づいた長距離グループ注意(Long-Range Grouping Attention: LGA)を提案します。すべてのビューからのトークンがグループ化され、それぞれ別々の注意操作が行われます。各グループ内のトークンはすべてのビューからサンプリングされ、対応するビューのマクロ表現を提供できます。異なるグループ間の多様性により、特徴学習の豊かさが保証されます。LGAを使用して視覚間特徴を接続し、標準的な自己注意層を使用して視覚内特徴を抽出することで、効果的かつ効率的なエンコーダーを構築できます。さらに、比較的高度な解像度でボクセル生成を行うための新しい段階的アップサンプリングデコーダーも設計されています。以上の方法に基づき、我々は強力なトランスフォーマーベースネットワークであるLRGT(Long-Range Grouping Transformer)を構築しました。ShapeNetでの実験結果により、我々の手法がマルチビューアルゴリズムにおいて最先端(SOTA)の精度を達成していることが確認されました。コードは以下のURLで公開予定です:https://github.com/LiyingCV/Long-Range-Grouping-Transformer。

長距離グループ化トランスフォーマーを用いた多視点3D再構成 | 最新論文 | HyperAI超神経