2ヶ月前

多視点3D再構築のための深層特徴集合の堅牢な注意集約

Bo Yang; Sen Wang; Andrew Markham; Niki Trigoni
多視点3D再構築のための深層特徴集合の堅牢な注意集約
要約

私たちは、一連の画像から基本的な3次元形状を復元する問題を研究しています。既存の学習ベースのアプローチでは、通常、再帰型ニューラルネットワーク(GRUなど)や直感的なプーリング操作(最大値/平均値プーリングなど)を使用して、入力画像からエンコードされた複数の深層特徴を融合します。しかし、GRUに基づくアプローチは再帰単位が順列変動であるため、同じ入力画像セットの異なる順列に対して一貫した3次元形状の推定が困難です。また、GRUの長期記憶喪失により、追加の画像が与えられた場合に3次元形状を改良することも難しいです。一般的に使用されるプーリング手法は部分情報(最大値/平均値)のみを捉えることに限定され、他の重要な特徴を無視してしまう傾向があります。本論文では、多視点3次元再構成のために任意のサイズの深層特徴集合を注意深く集約する新しいフィードフォワード型ニューラルモジュールAttSetsと専用の訓練アルゴリズムFASetを提案します。AttSetsモジュールは順列不変であり、計算効率が高く、実装も柔軟です。一方でFASetアルゴリズムは、AttSetsベースのネットワークが非常に堅牢となり、任意数の入力画像に対応できるようにします。私たちは複数の大規模公開データセットでFASetとAttSetsの特性を詳細に評価しました。広範な実験結果は、AttSetsとFASetアルゴリズムが既存の集約手法よりも大幅に優れていることを示しています。