DEVIANZ: Tiefen-äquivariante Netzwerkarchitektur für die monokulare 3D-Objekterkennung

Moderne neuronale Netze verwenden Bausteine wie Faltungen (Convolutions), die invariant gegenüber beliebigen 2D-Translationen sind. Allerdings sind diese einfachen Bausteine nicht invariant gegenüber beliebigen 3D-Translationen im projektiven Mannigfaltigkeit. Trotzdem nutzen alle einäugigen 3D-Detektoren diese einfachen Bausteine, um die 3D-Koordinaten zu bestimmen, eine Aufgabe, für die diese Bausteine nicht ausgelegt sind. Dieses Papier macht den ersten Schritt hin zu Faltungen, die invariant gegenüber beliebigen 3D-Translationen im projektiven Mannigfaltigkeit sind. Da die Tiefe bei der einäugigen Detektion am schwierigsten zu schätzen ist, schlägt dieses Papier das Depth EquiVarIAnt NeTwork (DEVIANT) vor, das mit existierenden skaleninvarianten steuerbaren Bausteinen aufgebaut wird. Als Ergebnis ist DEVIANT invariant gegenüber Tiefe-Translationen im projektiven Mannigfaltigkeit, während einfache Netze dies nicht sind. Die zusätzliche Tiefe-Invarianz zwingt DEVIANT, konsistente Tiefenschätzungen zu lernen, und daher erreicht DEVIANT state-of-the-art-Ergebnisse bei der einäugigen 3D-Detektion auf den KITTI- und Waymo-Datensätzen in der Kategorie "nur Bild" und leistet sich wettbewerbsfähig gegenüber Methoden, die zusätzliche Informationen verwenden. Darüber hinaus übertrifft DEVIANT einfache Netze bei der Cross-Datensatz-Evaluation. Der Quellcode und die Modelle sind unter https://github.com/abhi1kumar/DEVIANT verfügbar.