vor 15 Tagen

BiFuse++: Selbstüberwachende und effiziente Bi-Projektions-Fusion für die 360°-Tiefenschätzung

Fu-En Wang, Yu-Hsuan Yeh, Yi-Hsuan Tsai, Wei-Chen Chiu, Min Sun

Abstract

Aufgrund des Aufstiegs sphärischer Kameras wird die monokulare 360°-Tiefenschätzung zu einer wichtigen Technik für zahlreiche Anwendungen (z. B. autonome Systeme). Daher wurden state-of-the-art-Frameworks für die monokulare 360°-Tiefenschätzung wie die Bi-Projektions-Fusion in BiFuse vorgeschlagen. Zur Trainingsdurchführung solcher Frameworks sind eine große Anzahl an Panoramen sowie die entsprechenden Tiefen-Referenzwerte, die mittels Lasersensoren erfasst wurden, erforderlich, was die Kosten für die Datensammlung erheblich erhöht. Zudem ist der Datensammlungsprozess zeitaufwändig, wodurch die Skalierbarkeit dieser Methoden auf unterschiedliche Szenen zu einer Herausforderung wird. Um diesem Problem entgegenzuwirken, stellt das Selbsttraining eines Netzwerks für die monokulare Tiefenschätzung aus 360°-Videos eine mögliche Lösung dar. Bisher existieren jedoch keine bestehenden Frameworks, die die Bi-Projektions-Fusion in ein Selbsttrainingsszenario integrieren, was die Leistungsfähigkeit des selbstüberwachten Lernens erheblich einschränkt, da die Bi-Projektions-Fusion Informationen aus verschiedenen Projektionstypen nutzen kann. In diesem Artikel stellen wir BiFuse++ vor, um die Kombination aus Bi-Projektions-Fusion und Selbsttraining zu erforschen. Konkret schlagen wir ein neues Fusionsmodul sowie eine kontrastbewusste photometrische Verlustfunktion vor, um die Leistung von BiFuse zu verbessern und die Stabilität des Selbsttrainings auf realen Videos zu erhöhen. Wir führen sowohl überwachte als auch selbstüberwachte Experimente auf Benchmark-Datensätzen durch und erreichen dabei state-of-the-art-Ergebnisse.