11日前

拡散ベース画像生成器のモノクロナルドメイント推定への再利用

Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler
拡散ベース画像生成器のモノクロナルドメイント推定への再利用
要約

単眼深度推定は、コンピュータビジョンにおける基盤的なタスクである。単一の画像から3次元的な深度を復元することは、幾何学的に不適切な問題であり、シーンの理解を要するため、ディープラーニングの登場により飛躍的な進展がもたらされたことは驚くにあたらない。単眼深度推定器の進化は、比較的小規模なCNNから大規模なTransformerアーキテクチャへとモデル容量の拡大と並行して進んできた。しかし、訓練時に見ていたデータに依存する視覚世界に対する知識の制限と、新しいドメインへのゼロショット一般化の課題により、未知のコンテンツやレイアウトを含む画像に対しては依然として困難を抱える傾向がある。このような背景から、近年の生成型拡散モデルに蓄積された豊富な事前知識が、より汎化性能に優れた深度推定を実現できるかどうかを検討することにした。本研究では、Stable Diffusionから派生し、その豊かな事前知識を保持するアフィン不変な単眼深度推定手法「Marigold」を提案する。この推定器は、合成データのみを用いて単一GPUで数日間の微調整で学習可能であり、多数のデータセットにおいて最先端の性能を達成しており、特定のケースでは20%以上の性能向上を実現している。プロジェクトページ:https://marigoldmonodepth.github.io

拡散ベース画像生成器のモノクロナルドメイント推定への再利用 | 最新論文 | HyperAI超神経