
要約
NimbleD を紹介します。これは、大規模な視覚モデルによって生成された擬似ラベルから得られる監督情報を組み込んだ、効率的な自己教師付き単眼深度推定学習フレームワークです。本フレームワークはカメラの内部パラメータ(intrinsics)を必要としないため、公開されている動画データを用いた大規模な事前学習が可能になります。シンプルでありながら効果的な学習戦略により、追加の計算負荷を伴わずに高速かつ軽量なモデルの性能を大幅に向上させ、最先端の自己教師付き単眼深度推定モデルと同等の性能を達成することが可能になりました。この進展は、低遅延推論を要する仮想現実(VR)および拡張現実(AR)アプリケーションにおいて特に有益です。ソースコード、モデル重み、および謝辞は、https://github.com/xapaxca/nimbled にて公開されています。