HyperAIHyperAI

Command Palette

Search for a command to run...

拡散ベース画像生成器のモノクロナルドメイント推定への再利用

Bingxin Ke Anton Obukhov Shengyu Huang Nando Metzger Rodrigo Caye Daudt Konrad Schindler

概要

単眼深度推定は、コンピュータビジョンにおける基盤的なタスクである。単一の画像から3次元的な深度を復元することは、幾何学的に不適切な問題であり、シーンの理解を要するため、ディープラーニングの登場により飛躍的な進展がもたらされたことは驚くにあたらない。単眼深度推定器の進化は、比較的小規模なCNNから大規模なTransformerアーキテクチャへとモデル容量の拡大と並行して進んできた。しかし、訓練時に見ていたデータに依存する視覚世界に対する知識の制限と、新しいドメインへのゼロショット一般化の課題により、未知のコンテンツやレイアウトを含む画像に対しては依然として困難を抱える傾向がある。このような背景から、近年の生成型拡散モデルに蓄積された豊富な事前知識が、より汎化性能に優れた深度推定を実現できるかどうかを検討することにした。本研究では、Stable Diffusionから派生し、その豊かな事前知識を保持するアフィン不変な単眼深度推定手法「Marigold」を提案する。この推定器は、合成データのみを用いて単一GPUで数日間の微調整で学習可能であり、多数のデータセットにおいて最先端の性能を達成しており、特定のケースでは20%以上の性能向上を実現している。プロジェクトページ:https://marigoldmonodepth.github.io


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
拡散ベース画像生成器のモノクロナルドメイント推定への再利用 | 記事 | HyperAI超神経