Triangulationslernnetzwerk: von mono- zu stereoskopischer 3D-Objekterkennung

In dieser Arbeit untersuchen wir das Problem der 3D-Objekterkennung aus Stereo-Bildern, bei dem die wesentliche Herausforderung darin besteht, die Stereo-Informationen effektiv zu nutzen. Im Gegensatz zu früheren Methoden, die tiefenkarten auf Pixelbasis verwenden, schlagen wir vor, 3D-Ankerpunkte (3D anchors) einzusetzen, um explizit Objekt-Level-Korrespondenzen zwischen den Regionen von Interesse in Stereo-Bildern herzustellen. Aus diesen Korrespondenzen lernt das tiefe neuronale Netzwerk, das Zielobjekt im 3D-Raum zu erkennen und zu triangulieren. Zudem führen wir eine kosteneffiziente Kanalneugewichtungsstrategie ein, die repräsentative Merkmale verstärkt und störende Signale abmildert, um den Lernprozess zu erleichtern. All dies wird flexibel in einen robusten Baseline-Detektor integriert, der monokulare Bilder verwendet. Wir zeigen, dass sowohl der monokulare Baseline-Detektor als auch das Stereo-Triangulations-Lernalgorithmus-Netzwerk die bisherigen Standesderforschungsmethoden (state-of-the-arts) in 3D-Objekterkennung und -lokalisation auf dem anspruchsvollen KITTI-Datensatz übertreffen.