2ヶ月前

UMIFormer: 類似トークン間の相関関係を抽出した多視点3D再構築

Zhenwei Zhu; Liying Yang; Ning Li; Chaohao Jiang; Yanyan Liang
UMIFormer: 類似トークン間の相関関係を抽出した多視点3D再構築
要約

近年、ビジョントランスフォーマーの利用と空間時間解離を確立することで、多くのビデオタスクで画期的な進展が達成されています。しかし、マルチビュー3D再構成も複数の画像を入力として扱いますが、非構造化ビュー間の完全に曖昧な関連性のために、これらの成功をすぐに引き継ぐことはできません。ビデオにおける時系列の一貫性特性に類似した使用可能な事前関係が存在しないためです。この問題を解決するために、私たちは非構造化複数画像(Unstructured Multiple Images)用の新しいトランスフォーマーネットワーク(UMIFormer)を提案します。UMIFormerは、トランスフォーマーブロックを利用して非結合的なビュー内符号化を行い、トークン修正用の設計ブロックを利用して異なるビューからの類似トークン間の相関関係を掘り下げることで、非結合的なビュー間符号化を実現します。その後、各分岐から得られたすべてのトークンは、トークン間の類似性を利用しながら豊富な情報を保持した固定サイズのコンパクト表現に圧縮されます。私たちはShapeNet上で経験的に示し、非結合的な学習方法が非構造化複数画像に対して適応可能であることを確認しました。さらに、実験結果は私たちのモデルが既存の最先端手法(SOTA)よりも大幅に優れていることを証明しています。コードはhttps://github.com/GaryZhu1996/UMIFormer で公開予定です。

UMIFormer: 類似トークン間の相関関係を抽出した多視点3D再構築 | 最新論文 | HyperAI超神経