HyperAIHyperAI
vor 11 Tagen

Lernen monokularer Tiefen in dynamischen Szenen über instanzbewusste Projektionskonsistenz

Seokju Lee, Sunghoon Im, Stephen Lin, In So Kweon
Lernen monokularer Tiefen in dynamischen Szenen über instanzbewusste Projektionskonsistenz
Abstract

Wir präsentieren einen end-to-end gemeinsamen Trainingsrahmen, der explizit die 6-DoF-Bewegung mehrerer dynamischer Objekte, die Eigenbewegung und die Tiefeninformation in einer monokularen Kamera-Umgebung ohne überwachtes Lernen modelliert. Unsere technischen Beiträge sind dreifach. Erstens heben wir den grundlegenden Unterschied zwischen inverser und forward-Projektion hervor, wenn die individuelle Bewegung jedes starren Objekts modelliert wird, und schlagen eine geometrisch korrekte Projektionspipeline vor, die auf einem neuronalen Forward-Projektionsmodul basiert. Zweitens entwerfen wir eine einheitliche, instanzbewusste photometrische und geometrische Konsistenzverlustfunktion, die selbstüberwachende Signale für jede Hintergrund- und Objektregion umfassend vorgibt. Drittens führen wir ein allgemein verwendbares Auto-Annotierungsverfahren ein, das beliebige kommerziell erhältliche Instanzsegmentierungs- und Optische-Fluss-Modelle nutzt, um Video-Instanzsegmentierungskarten zu generieren, die als Eingabe für unseren Trainingsprozess dienen. Diese vorgeschlagenen Komponenten werden in einer detaillierten Ablationsstudie validiert. Durch umfangreiche Experimente auf den Datensätzen KITTI und Cityscapes wird gezeigt, dass unser Rahmen die bisher besten Methoden zur Tiefenschätzung und Bewegungsschätzung übertrifft. Unser Code, die Datensätze und die Modelle sind unter https://github.com/SeokjuLee/Insta-DM verfügbar.

Lernen monokularer Tiefen in dynamischen Szenen über instanzbewusste Projektionskonsistenz | Neueste Forschungsarbeiten | HyperAI