Depth Pro 深度推定の新しいマイレージ

Depth Pro: 1 秒未満で明確な単眼の深度測定を取得します。

1. チュートリアルの概要

Depth Pro は、2024 年 10 月に Apple によってオープンソース化されたゼロサンプルメトリクス単眼深度推定の基本モデルです。関連する論文の結果は次のとおりです。Depth Pro: 1 秒未満でシャープな単眼メトリクス深度を測定アレクセイ・ボチコフスキー、アマエル・ドローノワ、ヒューゴ・ジェルマン、マルセル・サントス、周宜超、ステファン・R・リヒター、ヴラドレン・コルトゥン著。

Depth Pro は、単一の 2D 画像から高解像度の 3D 深度マップを迅速に生成します。このモデルは、わずか 0.3 秒で高速なだけでなく、メトリックレベルの深度情報も提供し、生成された深度マップは現実世界のスケールを持ちます。 Depth Pro は、焦点距離などのカメラ固有のパラメーターに依存せず、非常に汎用性があります。境界線の細部の捕捉に優れており、髪の毛や植生などの微細な構造を鮮明に描写できます。 Depth Pro は、特定の分野でデータ トレーニングを行わずにゼロショット学習を実行し、正確な予測を行うことができるため、拡張現実、3D 再構築、画像編集などの複数の分野で広く使用されています。

Depth Pro の主な機能は次のとおりです。

  • ゼロショット メトリック深度推定: カメラ内パラメーターを使用せずに、単一の 2D 画像から絶対スケールのメトリック深度マップを生成します。
  • 高解像度出力: このモデルは最大 225 メガピクセルの深度マップを生成でき、豊富な詳細を提供します。
  • 高速処理: 標準 GPU 上で、Depth Pro は 0.3 秒で深度マップを生成するため、リアルタイム アプリケーションに適しています。
  • 詳細キャプチャ: 髪の毛、植生などの微妙な構造をキャプチャして、境界線を鮮明にするのに特に優れています。

技術原理の観点から見ると、Depth Pro は効率的なマルチスケール ビジュアル トランスフォーマー (ViT) アーキテクチャに基づいており、高解像度で微細構造を正確に識別しながらグローバルな画像コンテキストをキャプチャします。実際のデータセットと合成データセットの組み合わせでトレーニングされ、高精度のメトリクスと詳細な境界追跡を実現します。 Depth Pro は、単一の画像から焦点距離を推定することにより、ゼロサンプル焦点推定の分野もリードしています。さらに、2 段階のトレーニング戦略を採用しており、第 1 段階ではドメイン全体にわたる堅牢な特徴を学習することを目的としており、第 2 段階では境界を鮮明にし、予測された深度マップの微妙な詳細を明らかにすることに重点を置いています。

エフェクトのプレビュー

2. 操作手順

コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

高解像度デプスマップ合成

生成プロセス中に選択できるパラメータは 2 つあります

  • 自動回転: 自動回転
  • アルファを削除: アルファを削除

リクエストに応じて画像をアップロードするか、サンプルを選択してください

結果表示の生成
図 1 高解像度深度マップ合成のデモンストレーション

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。