17日前

トランスフォーマーを用いたマルチビュー3D再構成

Dan Wang, Xinrui Cui, Xun Chen, Zhengxia Zou, Tianyang Shi, Septimiu Salcudean, Z. Jane Wang, Rabab Ward
トランスフォーマーを用いたマルチビュー3D再構成
要約

これまでの深層CNNベースの手法は、多視点3Dオブジェクト再構成において、すでに最先端の成果を達成している。しかし、著しい進展にもかかわらず、これらの手法の2つの核心モジュールである多視点特徴抽出と特徴融合は、通常別々に研究されており、異なる視点間のオブジェクト関係性についてはほとんど検討されていない。本論文では、最近の自己注意(self-attention)に基づくTransformerモデルの著しい成功に着想を得て、多視点3D再構成をシーケンス対シーケンス予測問題として再定式化し、このタスクに適した新しいフレームワークである「3DボリュームTransformer(VolT)」を提案する。従来のCNNベースの手法が独立した設計を採用するのに対し、本手法では単一のTransformerネットワーク内に特徴抽出とビュー融合を統合する。この設計の自然な利点は、複数の順序なし入力間における自己注意機構を用いて、ビュー間の関係性を効果的に探索できることにある。大規模な3D再構成ベンチマークデータセットであるShapeNet上で、本手法は他のCNNベースの手法と比較してパラメータ数を70%削減しつつ、多視点再構成において新たな最先端の精度を達成した。実験結果から、本手法の優れたスケーラビリティも示唆されている。本研究のコードは公開予定である。

トランスフォーマーを用いたマルチビュー3D再構成 | 最新論文 | HyperAI超神経