HyperAIHyperAI

Command Palette

Search for a command to run...

トランスフォーマーを用いたマルチビュー3D再構成

Dan Wang Xinrui Cui Xun Chen Zhengxia Zou Tianyang Shi Septimiu Salcudean Z. Jane Wang Rabab Ward

概要

これまでの深層CNNベースの手法は、多視点3Dオブジェクト再構成において、すでに最先端の成果を達成している。しかし、著しい進展にもかかわらず、これらの手法の2つの核心モジュールである多視点特徴抽出と特徴融合は、通常別々に研究されており、異なる視点間のオブジェクト関係性についてはほとんど検討されていない。本論文では、最近の自己注意(self-attention)に基づくTransformerモデルの著しい成功に着想を得て、多視点3D再構成をシーケンス対シーケンス予測問題として再定式化し、このタスクに適した新しいフレームワークである「3DボリュームTransformer(VolT)」を提案する。従来のCNNベースの手法が独立した設計を採用するのに対し、本手法では単一のTransformerネットワーク内に特徴抽出とビュー融合を統合する。この設計の自然な利点は、複数の順序なし入力間における自己注意機構を用いて、ビュー間の関係性を効果的に探索できることにある。大規模な3D再構成ベンチマークデータセットであるShapeNet上で、本手法は他のCNNベースの手法と比較してパラメータ数を70%削減しつつ、多視点再構成において新たな最先端の精度を達成した。実験結果から、本手法の優れたスケーラビリティも示唆されている。本研究のコードは公開予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています