13日前
Depth Anything:大規模なラベルなしデータの力を解き放つ
Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

要約
本研究では、堅牢な単眼深度推定を実現する実用性の高い手法「Depth Anything」を提案する。新たな技術モジュールの開発にこだわることなく、あらゆる画像・あらゆる条件下でも対応可能なシンプルでありながら強力な基礎モデルの構築を目指している。その実現のため、データエンジンを設計し、大規模なラベルなしデータ(約6200万枚)を収集・自動アノテーションすることで、データセットを拡張した。これによりデータカバレッジが大幅に拡大し、汎化誤差の低減が可能となった。さらに、データ拡張ツールを活用したより困難な最適化目標の設定や、事前学習済みエンコーダから豊かな意味論的事前知識をモデルに継承させるための補助的監督機構という、シンプルかつ効果的な二つの戦略を検討し、データスケーリングの有効性を実証した。本モデルのゼロショット性能は、6つの公的データセットおよびランダムに撮影された画像を用いて広範に評価された結果、優れた汎化能力を示した。さらに、NYUv2およびKITTIから得られるメトリック深度情報を用いたファインチューニングにより、新たなSOTA(最先端性能)を達成した。本研究で開発したより優れた深度推定モデルは、深度条件付きControlNetの性能向上にも寄与した。本研究のモデルは、GitHubにて公開されている:https://github.com/LiheYoung/Depth-Anything。