15日前
任意の深度へ蒸留:蒸留によって強力なモノクロmaal深度推定器が構築される
Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

要約
単眼深度推定(Monocular Depth Estimation, MDE)は、単一のRGB画像からシーンの深度を推定することを目的とし、3Dシーン理解において重要な役割を果たしている。近年のゼロショットMDEの進展は、正規化された深度表現と蒸留ベースの学習を活用することで、多様なシーン間での一般化性能を向上させている。しかし、現在の蒸留に用いられる深度正規化手法は、グローバル正規化に依存しているため、ノイズを含む偽ラベルが拡大されやすく、結果として蒸留の効果が低下するという課題がある。本研究では、異なる深度正規化戦略が偽ラベル蒸留に与える影響を体系的に分析した。その結果に基づき、グローバルな深度情報と局所的な深度情報の両方を統合する「クロスコンテキスト蒸留(Cross-Context Distillation)」を提案する。さらに、異なる深度推定モデルが持つ相補的な強みを活かすマルチティーチャー蒸留フレームワークを導入し、より堅牢かつ高精度な深度推定を実現した。標準ベンチマークデータセットにおける広範な実験結果から、本手法が最先端の手法を定量的・定性的に大きく上回ることを示した。