Verbesserung der 360-Grad-Tiefenschätzung aus einer einzigen Kamera mittels Nicht-lokalem dichtem Vorhersage-Transformer und gemeinsamer überwachter sowie selbstüberwachter Lernansätze

Aufgrund der Schwierigkeiten bei der Beschaffung von Ground-Truth-Tiefeninformationen für equirectanguläre (360°) Bilder ist die Qualität und Quantität an equirectangulären Tiefendaten heute unzureichend, um die Vielfalt der realen Szenen weltweit angemessen darzustellen. Daher sind 360°-Tiefenschätzungsmethoden, die ausschließlich auf überwachtem Lernen basieren, zwangsläufig mit unbefriedigenden Ergebnissen verbunden. Obwohl selbstüberwachende Lernansätze für equirectanguläre Bilder (EIs) vorgestellt wurden, weisen diese oft fehlerhafte oder nicht eindeutige Lösungen auf, was zu instabiler Leistung führt. In diesem Paper stellen wir 360°-monokulare Tiefenschätzungsmethoden vor, die die Grenzen früherer Studien überwinden. Erstens führen wir ein selbstüberwachtes 360°-Tiefenlernverfahren ein, das ausschließlich auf gravitationsausgerichteten Videos basiert und das Potenzial besitzt, den Bedarf an Tiefendaten während des Trainingsprozesses vollständig zu eliminieren. Zweitens schlagen wir ein gemeinsames Lernschema vor, das überwachtes und selbstüberwachtes Lernen kombiniert; hierdurch kompensieren sich die Schwächen beider Ansätze und führen zu einer präziseren Tiefenschätzung. Drittens stellen wir einen nicht-lokalen Fusionsblock vor, der die globale Information, die durch den Vision Transformer kodiert ist, bei der Rekonstruktion der Tiefen weiterhin effektiv bewahrt. Mit den vorgeschlagenen Methoden gelingt es uns, wie uns bekannt ist, erstmals den Einsatz von Transformers in der 360°-Tiefenschätzung erfolgreich zu realisieren. Auf mehreren Benchmarks erzielt unser Ansatz signifikante Verbesserungen gegenüber früheren Arbeiten und erreicht einen neuen State-of-the-Art.