HyperAIHyperAI
vor 4 Monaten

Lernen in Stereo, Inferenz in Mono: Siamese Netze für selbstüberwachtes, monokulares Tiefenschätzung

Matan Goldman; Tal Hassner; Shai Avidan
Lernen in Stereo, Inferenz in Mono: Siamese Netze für selbstüberwachtes, monokulares Tiefenschätzung
Abstract

Das Gebiet der selbstüberwachten monoökularen Tiefenschätzung hat in den letzten Jahren enorme Fortschritte gemacht. Die meisten Methoden gehen davon aus, dass während des Trainings stereo-Daten zur Verfügung stehen, nutzen diese aber in der Regel unteroptimal und behandeln sie nur als Referenzsignal. Wir schlagen einen neuen selbstüberwachten Ansatz vor, der sowohl das linke als auch das rechte Bild gleichwertig während des Trainings verwendet, aber bei der Testzeit immer noch mit einem einzelnen Eingangsbild für die monoökulare Tiefenschätzung eingesetzt werden kann. Unsere Siamese-Netzwerkarchitektur besteht aus zwei zwillingsähnlichen Netzen, von denen jedes lernt, eine Disparitätskarte aus einem einzelnen Bild zu generieren. Bei der Testzeit wird jedoch nur eines dieser Netze verwendet, um die Tiefe zu bestimmen. Wir zeigen Stand-of-the-Art-Ergebnisse am Standard-KITTI-Eigen-Split-Benchmark sowie die besten Ergebnisse einer selbstüberwachten Methode am neuen KITTI-Einzelbild-Benchmark. Um die Fähigkeit unserer Methode, auf neue Datensätze zu generalisieren, zu demonstrieren, stellen wir zusätzlich Ergebnisse am Make3D-Benchmark vor, der während des Trainings nicht verwendet wurde.