Objektzentrierte Stereobildverarbeitung für die 3D-Objekterkennung
Sicheres autonomes Fahren erfordert eine zuverlässige 3D-Objekterkennung – die Bestimmung der sechs Freiheitsgrade (6 DoF) und der Abmessungen von Objekten von Interesse. Die Verwendung von Stereo-Kameras zur Lösung dieser Aufgabe ist eine kostengünstige Alternative zum weit verbreiteten LiDAR-Sensor. Der aktuelle Stand der Technik bei der Stereo-3D-Objekterkennung verwendet das bestehende PSMNet-Stereomatching-Netzwerk unverändert und konvertiert die geschätzten Disparitäten in einen 3D-Punktwolkenraum, den dieses Netzwerk dann an einen LiDAR-basierten 3D-Objekterkennungsansatz weitergibt. Das Problem mit den existierenden Stereomatching-Netzwerken besteht darin, dass sie für Disparitätschätzungen entwickelt wurden, nicht jedoch für die 3D-Objekterkennung; Form und Genauigkeit der Objekt-Punktwolken stehen nicht im Mittelpunkt. Stereomatching-Netzwerke leiden häufig unter ungenauen Tiefenschätzungen an Objektgrenzen, was wir als Streifenbildung definieren, da Hintergrund- und Vordergrundpunkte gemeinsam geschätzt werden. Existierende Netzwerke bestrafen in ihren Verlustfunktionen eher Disparitätsfehler als die geschätzte Position der Objekt-Punktwolken. Wir schlagen eine neuartige Methode zur Zuordnung von 2D-Boundingboxen und objektzentrierten Stereomatchings vor, die nur die Disparitäten der interessierenden Objekte schätzt, um diese beiden Probleme anzugehen. Unsere Methode erzielt Stand-des-Dingen-gemäße Ergebnisse auf den KITTI-3D- und BEV-Benchmarks.