Disp R-CNN: Stereo 3D-Objekterkennung durch formbasierte Instanzdisparitätsschätzung

In dieser Arbeit schlagen wir ein neues System namens Disp R-CNN vor, das für die 3D-Objekterkennung aus Stereo-Bildern entwickelt wurde. Viele kürzlich veröffentlichte Arbeiten lösen dieses Problem, indem sie zunächst eine Punktwolke durch Disparitätsschätzung rekonstruieren und dann einen 3D-Detektor anwenden. Die Disparitätskarte wird für das gesamte Bild berechnet, was aufwendig ist und es nicht ermöglicht, kategorie-spezifische Vorinformationen zu nutzen. Im Gegensatz dazu haben wir ein Instanzdisparitätsschätzungsnetzwerk (iDispNet) entwickelt, das die Disparität nur für Pixel auf interessanten Objekten vorhersagt und ein kategorie-spezifisches Formprior lernt, um eine genauere Disparitätsschätzung zu erreichen. Um der Herausforderung der Knappheit von Disparitätsannotierungen im Training entgegenzukommen, schlagen wir vor, ein statistisches Formmodell zu verwenden, um dichte Disparitätpseudo-Ground-Truth ohne die Notwendigkeit von LiDAR-Punktwolken zu generieren. Dies macht unser System breiter anwendbar. Experimente mit dem KITTI-Datensatz zeigen, dass Disp R-CNN auch ohne LiDAR-Ground-Truth im Training wettbewerbsfähige Leistungen erzielt und die bisherigen Standesmethoden in Bezug auf den durchschnittlichen Präzisionswert um 20 % übertrifft.