HyperAIHyperAI
vor 2 Monaten

Tiefe Optik für die Schätzungen von Ein-Augen-Tiefen und die 3D-Objekterkennung

Julie Chang; Gordon Wetzstein
Tiefe Optik für die Schätzungen von Ein-Augen-Tiefen und die 3D-Objekterkennung
Abstract

Tiefenschätzung und 3D-Objekterkennung sind für die Szeneinterpretation entscheidend, bleiben aber aufgrund des Verlusts von 3D-Informationen während der Bildaufnahme schwierig, wenn nur ein einzelnes Bild verwendet wird. Neueste Modelle, die tief neuronalen Netzen zugrunde liegen, haben die Leistungsfähigkeit der monokularen Tiefenschätzung verbessert, es besteht jedoch weiterhin Schwierigkeiten bei der Vorhersage absoluter Tiefen und der Generalisierung außerhalb eines Standarddatensatzes. Hier stellen wir das Paradigma der tiefen Optik vor, d.h. die end-to-end-Gestaltung von Optik und Bildverarbeitung, um dieses Problem der monokularen Tiefenschätzung anzugehen. Dabei nutzen wir kodierten Defokus-Blurring als zusätzlichen Tiefenhinweis, den ein neuronales Netzwerk dekodieren kann. Wir evaluieren mehrere optische Kodierungsstrategien zusammen mit einem end-to-end-Optimierungsschema für die Tiefenschätzung anhand dreier Datensätze, darunter NYU Depth v2 und KITTI. Wir finden heraus, dass eine optimierte freiformlinsenentwurf (freeform lens design) die besten Ergebnisse liefert, aber auch chromatische Aberrationen einer einfachen Linse (singlet lens) die Leistung erheblich verbessern. Wir bauen ein physikalisches Prototypengerät und bestätigen durch reale Testergebnisse, dass chromatische Aberrationen die Tiefenschätzung verbessern. Darüber hinaus trainieren wir Objekterkennungsnetzwerke am KITTI-Datensatz und zeigen, dass die für die Tiefenschätzung optimierte Linse auch zu einer verbesserten 3D-Objekterkennungsleistung führt.

Tiefe Optik für die Schätzungen von Ein-Augen-Tiefen und die 3D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI