HyperAI超神経

Distill-Any-Depth: 単眼深度推定装置

1. チュートリアルの概要

建てる

Distill-Any-Depthは、浙江理工大学、西湖大学、河南大学、シンガポール国立大学が2025年2月28日に共同で発表した革新的な単眼深度推定プロジェクトです。このプロジェクトは、蒸留アルゴリズムを通じて複数のオープンソースモデルの利点を統合し、少量のラベルなしデータのみで高精度の深度推定を実現し、現在のSOTA(最先端)性能を刷新します。あらゆる深さを蒸留:蒸留により強力な単眼深度推定装置が作成”。

その主なポイントは次のとおりです。

  • 複数教師蒸留フレームワーク
    • 複数の教師モデルをランダムに選択して疑似ラベルを生成することで、さまざまなモデルの利点が組み合わされ、疑似ラベルの品質が向上します。
    • クロスコンテキスト蒸留メカニズムが導入され、ローカルの詳細とグローバル情報が結合され、モデルの堅牢性が大幅に向上しました。
  • 地域標準化戦略
    • 従来のグローバル正規化ではノイズが増幅されます。本プロジェクトでは、切り取られた領域内で正規化を行うことで、局所的な詳細(物体のエッジや小さな穴の構造など)を維持し、予測精度を向上させることを提案しています。
  • データ依存性が低い
    • 必要なラベルなし画像は 20,000 枚のみ (従来の方法で必要な数百万の注釈よりはるかに少ない) であり、データ注釈のコストが大幅に削減されます。
  • 一般化
    • NYUv2(屋内)、KITTI(屋外運転)、DIODE(複雑な照明)などのベンチマークテストでは、エラーインジケーター(AbsRel)が前モデルより大幅に向上しています。
  • 堅牢性
    • 透明なオブジェクト、反射面、動的なシーンでも安定したパフォーマンスを発揮し、複雑な条件下での従来のモデルの障害の問題を解決します。
  • 効率
    • 推論速度は拡散ベースのモデル(Marigold など)よりも 10 倍以上速く、リアルタイム アプリケーションをサポートします。

このチュートリアルで使用されるコンピューティング リソースは、単一の RTX 4090 カードです。

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2. 使用手順

結果 

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{he2025distill,
  title   = {Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator},
  author  = {Xiankang He and Dongyan Guo and Hongji Li and Ruibo Li and Ying Cui and Chi Zhang},
  year    = {2025},
  journal = {arXiv preprint arXiv: 2502.19204}
}