Ausschöpfen des Potenzialansatzes der selbstüberwachten monokularen Tiefenschätzung

Selbstüberwachte Methoden spielen aufgrund ihres hohen Potenzials und der geringen Annotierungskosten eine zunehmend wichtige Rolle bei der monokularen Tiefenschätzung. Um die Lücke zu überwachten Methoden zu schließen, nutzen jüngere Ansätze zusätzliche Einschränkungen, beispielsweise semantische Segmentierung. Diese Ansätze erhöhen jedoch unvermeidlich den Belastungsgrad des Modells. In dieser Arbeit liefern wir theoretische und empirische Belege dafür, dass das Potenzial selbstüberwachter monokularer Tiefenschätzung auch ohne Erhöhung dieser Kosten ausgeschöpft werden kann. Insbesondere stellen wir folgende Beiträge vor: (1) einen neuartigen Ansatz zur Daten-Augmentation namens Data Grafting, der das Modell dazu zwingt, zusätzliche Hinweise zur Tiefenschätzung zu erkunden, abgesehen von der vertikalen Position im Bild; (2) eine explorative Selbst-Distillation-Loss-Funktion, die durch ein selbstgeneriertes Etikett gestützt wird, welches mittels unserer neuen Nachverarbeitungsmethode – selektive Nachverarbeitung – erzeugt wird; und (3) ein vollskaliges Netzwerk, das dem Encoder eine Spezialisierung auf die Tiefenschätzaufgabe verleiht und die repräsentative Kapazität des Modells erhöht. Umfangreiche Experimente zeigen, dass unsere Beiträge die Leistung der Basislinie signifikant verbessern, selbst mit geringerem Rechenaufwand. Unser Modell, EPCDepth genannt, erreicht dabei eine Leistung, die die bisherigen State-of-the-Art-Methoden übertrifft – selbst jene, die durch zusätzliche Einschränkungen überwacht werden.