9日前

幾何学的制約のないビュー合成:トランスフォーマーと3D事前知識の不在

Robin Rombach, Patrick Esser, Björn Ommer
幾何学的制約のないビュー合成:トランスフォーマーと3D事前知識の不在
要約

単一画像から新規ビューを合成するには幾何学的モデルが必要か?CNNは局所的な畳み込みに依存しているため、幾何変換をモデル化するには明示的な3Dバイアスが必要となる。一方、本研究ではトランスフォーマーに基づくモデルが、手動で設計された3Dバイアスを一切用いずに、完全に新規のビューを合成できることを示す。これは(i)ソースビューとターゲットビュー間の長距離3D対応関係を暗黙的に学習するためのグローバルアテンション機構、および(ii)単一画像から新規ビューを予測する際の固有の不確実性を捉えるために必要な確率的定式化の導入によって実現される。これにより、従来のアプローチが比較的小さな視点変化に限定されていたという制約を克服できる。本研究では、トランスフォーマー構造に3D事前知識を統合するさまざまな手法を検証したが、実験の結果、いかなる幾何学的事前知識も不要であり、トランスフォーマーが画像間の3D関係を暗黙的に学習可能であることが明らかになった。さらに、このアプローチは視覚的品質において最先端の手法を上回りつつ、可能な実現可能性の全分布をカバーしている。コードは https://git.io/JOnwn で公開されている。

幾何学的制約のないビュー合成:トランスフォーマーと3D事前知識の不在 | 最新論文 | HyperAI超神経