NimbleD: Verbesserung der selbstüberwachten monokularen Tiefenschätzung durch Pseudolabels und großskaliges Video-Prätrainieren

Wir stellen NimbleD vor, einen effizienten, selbstüberwachten Lernframework für die monokulare Tiefenschätzung, der Supervision durch Pseudolabels nutzt, die von einem großen Vision-Modell generiert werden. Dieser Ansatz erfordert keine Kameraintrinsika und ermöglicht somit eine großskalige Vortraining auf öffentlich verfügbaren Videos. Unser einfacher, jedoch wirksamer Lernansatz verbessert die Leistung schneller und leichtgewichtiger Modelle erheblich, ohne zusätzlichen Overhead einzuführen, sodass diese Leistung erreichen, die mit den derzeit besten selbstüberwachten Modellen für die monokulare Tiefenschätzung vergleichbar ist. Diese Entwicklung ist besonders vorteilhaft für Anwendungen im Bereich virtueller und erweiterter Realität, die eine geringe Latenz bei der Inferenz erfordern. Der Quellcode, die Modellgewichte und Anerkennungen sind unter https://github.com/xapaxca/nimbled verfügbar.