日付

8ヶ月前

サイズ

422.93 MB

タグ

深度推定

ライセンス

MIT

GitHub

Westlake-AGI-Lab/Distill-Any-Depth

論文URL

2502.19204

1. チュートリアルの概要

Distill-Any-Depthは、浙江理工大学、西湖大学、河南大学、シンガポール国立大学が2025年2月28日に共同で開始した革新的な単眼深度推定プロジェクトです。このプロジェクトは、複数のオープンソースモデルの利点を蒸留アルゴリズムによって統合し、少量のラベルなしデータから高精度な深度推定を実現することで、新たな最先端（SOTA）性能基準を確立しました。関連論文は以下をご覧ください。あらゆる深さを蒸留：蒸留により強力な単眼深度推定装置が作成。

その主なポイントは次のとおりです。

複数教師蒸留フレームワーク
- 複数の教師モデルをランダムに選択して疑似ラベルを生成することで、さまざまなモデルの利点が組み合わされ、疑似ラベルの品質が向上します。
- クロスコンテキスト蒸留メカニズムが導入され、ローカルの詳細とグローバル情報が結合され、モデルの堅牢性が大幅に向上しました。
地域標準化戦略
- 従来のグローバル正規化ではノイズが増幅されます。本プロジェクトでは、切り取られた領域内で正規化を行うことで、局所的な詳細（物体のエッジや小さな穴の構造など）を維持し、予測精度を向上させることを提案しています。
データ依存性が低い
- 必要なラベルなし画像は 20,000 枚のみ (従来の方法で必要な数百万の注釈よりはるかに少ない) であり、データ注釈のコストが大幅に削減されます。
一般化
- NYUv2（屋内）、KITTI（屋外運転）、DIODE（複雑な照明）などのベンチマークテストでは、エラーインジケーター（AbsRel）が前モデルより大幅に向上しています。
堅牢性
- 透明なオブジェクト、反射面、動的なシーンでも安定したパフォーマンスを発揮し、複雑な条件下での従来のモデルの障害の問題を解決します。
効率
- 推論速度は拡散ベースのモデル（Marigold など）よりも 10 倍以上速く、リアルタイムアプリケーションをサポートします。

このチュートリアルで使用されるコンピューティングリソースは、単一の RTX 4090 カードです。

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2. 使用手順

結果

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{he2025distill,
  title   = {Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator},
  author  = {Xiankang He and Dongyan Guo and Hongji Li and Ruibo Li and Ying Cui and Chi Zhang},
  year    = {2025},
  journal = {arXiv preprint arXiv: 2502.19204}
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

8ヶ月前

サイズ

422.93 MB

タグ

深度推定

ライセンス

MIT

GitHub

Westlake-AGI-Lab/Distill-Any-Depth

論文URL

2502.19204

1. チュートリアルの概要

その主なポイントは次のとおりです。

複数教師蒸留フレームワーク
- 複数の教師モデルをランダムに選択して疑似ラベルを生成することで、さまざまなモデルの利点が組み合わされ、疑似ラベルの品質が向上します。
- クロスコンテキスト蒸留メカニズムが導入され、ローカルの詳細とグローバル情報が結合され、モデルの堅牢性が大幅に向上しました。
地域標準化戦略
- 従来のグローバル正規化ではノイズが増幅されます。本プロジェクトでは、切り取られた領域内で正規化を行うことで、局所的な詳細（物体のエッジや小さな穴の構造など）を維持し、予測精度を向上させることを提案しています。
データ依存性が低い
- 必要なラベルなし画像は 20,000 枚のみ (従来の方法で必要な数百万の注釈よりはるかに少ない) であり、データ注釈のコストが大幅に削減されます。
一般化
- NYUv2（屋内）、KITTI（屋外運転）、DIODE（複雑な照明）などのベンチマークテストでは、エラーインジケーター（AbsRel）が前モデルより大幅に向上しています。
堅牢性
- 透明なオブジェクト、反射面、動的なシーンでも安定したパフォーマンスを発揮し、複雑な条件下での従来のモデルの障害の問題を解決します。
効率
- 推論速度は拡散ベースのモデル（Marigold など）よりも 10 倍以上速く、リアルタイムアプリケーションをサポートします。

このチュートリアルで使用されるコンピューティングリソースは、単一の RTX 4090 カードです。

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2. 使用手順

結果

4. 議論

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{he2025distill,
  title   = {Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator},
  author  = {Xiankang He and Dongyan Guo and Hongji Li and Ruibo Li and Ying Cui and Chi Zhang},
  year    = {2025},
  journal = {arXiv preprint arXiv: 2502.19204}
}

Depth-Anything-3: あらゆる視点から視覚空間を復元する

2ヶ月前

DeepSeek-R1-70Bのワンクリック展開

3ヶ月前

HunyuanWorld-Mirror: 3D世界生成モデル

3ヶ月前

Supertonic: ONNXに基づく高速TTS音声合成モデル

2ヶ月前

PaddleOCR-VL: マルチモーダルドキュメント解析

3ヶ月前

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

2ヶ月前

ROCKET-2: 3Dゲームゼロショット転送

2ヶ月前

SAM3: 視覚セグメンテーションモデル

2ヶ月前

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

3ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

Distill-Any-Depth: 単眼深度推定装置

1. チュートリアルの概要

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

4. 議論

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

Distill-Any-Depth: 単眼深度推定装置

1. チュートリアルの概要

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

4. 議論

引用情報

関連 ノートブック

Depth-Anything-3: あらゆる視点から視覚空間を復元する

DeepSeek-R1-70Bのワンクリック展開

HunyuanWorld-Mirror: 3D世界生成モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

PaddleOCR-VL: マルチモーダルドキュメント解析

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

ROCKET-2: 3Dゲームゼロショット転送

SAM3: 視覚セグメンテーションモデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

AIでAIを構築

HyperAI Newsletters

Command Palette

Distill-Any-Depth: 単眼深度推定装置

1. チュートリアルの概要

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

4. 議論

引用情報

関連 ノートブック

Depth-Anything-3: あらゆる視点から視覚空間を復元する

DeepSeek-R1-70Bのワンクリック展開

HunyuanWorld-Mirror: 3D世界生成モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

PaddleOCR-VL: マルチモーダルドキュメント解析

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

ROCKET-2: 3Dゲームゼロショット転送

SAM3: 視覚セグメンテーションモデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

Depth-Anything-3: あらゆる視点から視覚空間を復元する

DeepSeek-R1-70Bのワンクリック展開

HunyuanWorld-Mirror: 3D世界生成モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

PaddleOCR-VL: マルチモーダルドキュメント解析

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

ROCKET-2: 3Dゲームゼロショット転送

SAM3: 視覚セグメンテーションモデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

関連 ノートブック

Depth-Anything-3: あらゆる視点から視覚空間を復元する

DeepSeek-R1-70Bのワンクリック展開

HunyuanWorld-Mirror: 3D世界生成モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

PaddleOCR-VL: マルチモーダルドキュメント解析

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

ROCKET-2: 3Dゲームゼロショット転送

SAM3: 視覚セグメンテーションモデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック