Helvipad: Ein realweltliches Datensatz für die omnidirektionale Stereotiefenschätzung

Trotz der Fortschritte bei der stereoskopischen Tiefenschätzung bleibt die omnidirektionale Bildgebung weitgehend unerforscht, hauptsächlich aufgrund des Mangels an geeigneten Daten. Wir stellen Helvipad vor, einen realen Datensatz für die omnidirektionale stereoskopische Tiefenschätzung, der 40.000 Videobilder aus Videosequenzen in verschiedenen Umgebungen umfasst, darunter dicht besetzte Innen- und Außenszenen mit unterschiedlichen Beleuchtungsbedingungen. Die Daten wurden unter Verwendung zweier 360°-Kameras in einer ober-unter-Aufstellung und eines LiDAR-Sensors gesammelt. Der Datensatz enthält genaue Tiefen- und Disparitätslabels durch die Projektion von 3D-Punktwolken auf equirektangulare Bilder. Zudem bieten wir ein erweitertes Trainingsset mit erhöhter Label-Dichte an, das durch die Verwendung von Tiefenvervollständigung erstellt wurde. Wir evaluieren führende Modelle zur stereoskopischen Tiefenschätzung sowohl für Standard- als auch für omnidirektionale Bilder. Die Ergebnisse zeigen, dass obwohl aktuelle stereoskopische Methoden zufriedenstellende Leistungen erbringen, es weiterhin eine Herausforderung darstellt, die Tiefe in omnidirektionalen Bildern genau zu schätzen. Um dies anzugehen, führen wir notwendige Anpassungen an den Stereomodellen ein, was zu einer verbesserten Leistung führt.