GrooMeD-NMS: Gruppierter mathematisch differenzierbarer NMS für die monokulare 3D-Objekterkennung

Moderne 3D-Objekterkennungssysteme haben enorm von der Idee des end-to-end-Lernens profitiert. Dennoch verwenden die meisten von ihnen einen Post-Processing-Algorithmus namens Non-Maximal Suppression (NMS) nur während der Inferenz. Obwohl es Versuche gab, NMS in den Trainingsprozess für Aufgaben wie die 2D-Objekterkennung zu integrieren, wurden diese Lösungen weniger häufig angewendet, da NMS nicht mathematisch ausdrückbar ist. In dieser Arbeit stellen wir GrooMeD-NMS vor – eine neuartige gruppierte und mathematisch differenzierbare NMS für monokulare 3D-Objekterkennung, sodass das Netzwerk end-to-end mit einem Verlust auf den Boxen nach NMS trainiert wird. Zunächst formulieren wir NMS als Matrixoperation und gruppieren dann die Boxen in einer unüberwachten Weise, um eine einfache geschlossene Formel für die NMS zu erhalten. GrooMeD-NMS behebt die Diskrepanz zwischen Trainings- und Inferenzpipelines und zwingt das Netzwerk daher, die beste 3D-Box auf differenzierbare Weise auszuwählen. Als Ergebnis erreicht GrooMeD-NMS erstklassige Ergebnisse bei der monokularen 3D-Objekterkennung auf dem KITTI-Benchmark-Datensatz, vergleichbar mit monokular video-basierten Methoden. Der Quellcode und die Modelle sind unter https://github.com/abhi1kumar/groomed_nms verfügbar.