Selbstüberwachtes Lernen für die Schätzung von Einzelsicht-Tiefen und Oberflächennormalen

In dieser Arbeit präsentieren wir ein selbstüberwachtes Lernframework zur gleichzeitigen Ausbildung zweier Faltungsneuronalen Netze (CNNs), um Tiefe und Oberflächennormalen aus einem einzelnen Bild vorherzusagen. Im Gegensatz zu den meisten existierenden Frameworks, die Außenbereiche als frontoparallele Ebenen bei stückweise glatter Tiefe darstellen, schlagen wir vor, die Tiefe unter der Annahme von stückweise glatten Normalen in natürlichen Szenen zusammen mit der Oberflächenorientierung vorherzusagen. Wir zeigen, dass eine einfache Tiefe-Normale-Konsistenz als weicher Zwang auf den Vorhersagen ausreichend und effektiv ist, um beide Netzwerke gleichzeitig zu trainieren. Das trainierte Normale-Netzwerk liefert Stand-des-Wissens-Vorhersagen, während das Tiefen-Netzwerk, das sich auf eine viel realistischere Annahme von glatten Normalen stützt, das traditionelle selbstüberwachte Tiefenvorhersagenetzwerk im KITTI-Benchmark erheblich übertrifft. Demonstrationsvideo: https://youtu.be/ZD-ZRsw7hdM