BEVFormer v2: Anpassung moderner Bild-Backbones an die Vogel-Sicht-Erkennung mittels Perspektivischer Supervision

Wir präsentieren einen neuartigen Bird’s-Eye-View-(BEV-)Detektor mit Perspektivüberwachung, der schneller konvergiert und besser zu modernen Bild-Backbones passt. Bestehende State-of-the-Art-BEV-Detektoren sind oft an bestimmte tiefenprätrainierte Backbones wie VoVNet gebunden, was die Synergie zwischen den rasant fortschreitenden Bild-Backbones und BEV-Detektoren einschränkt. Um diese Einschränkung zu überwinden, legen wir den Fokus darauf, die Optimierung von BEV-Detektoren zu vereinfachen, indem wir eine Überwachung im Perspektivenraum einführen. Dazu schlagen wir einen zweistufigen BEV-Detektor vor, bei dem die Vorschläge des Perspektiven-Heads in den Bird’s-Eye-View-Head zur endgültigen Vorhersage weitergeleitet werden. Um die Wirksamkeit unseres Modells zu evaluieren, führen wir umfassende Ablationsstudien durch, die sich auf die Art der Überwachung und die Allgemeingültigkeit des vorgeschlagenen Detektors konzentrieren. Die vorgeschlagene Methode wird an einer Vielzahl traditioneller und moderner Bild-Backbones getestet und erreicht auf dem großskaligen nuScenes-Datensatz neue SOTA-Ergebnisse. Der Quellcode wird in Kürze veröffentlicht.