Temporale Verbesserung des Trainings eines Multi-View-3D-Objektdetektors durch historische Objektprediction

In diesem Artikel stellen wir ein neues Paradigma namens Historical Object Prediction (HoP) für die Multi-View-3D-Detektion vor, um zeitliche Informationen effektiver zu nutzen. Der HoP-Ansatz ist einfach gehalten: Gegeben ein aktueller Zeitpunkt t generieren wir aus den benachbarten Bildern einen Pseudo-Bird’s-Eye-View (BEV)-Feature für den Zeitpunkt t−k und nutzen diesen Feature, um die Objektmenge zum Zeitpunkt t−k vorherzusagen. Diese Herangehensweise wird durch die Beobachtung motiviert, dass die Forderung an den Detektor, sowohl die räumliche Lage als auch die zeitliche Bewegung von Objekten zu erfassen, die im historischen Zeitraum auftreten, zu einer präziseren BEV-Feature-Lernung führen kann. Zunächst entwerfen wir sorgfältig Kurzzeit- und Langzeit-Temporal-Decoder, die die Pseudo-BEV-Features für den Zeitpunkt t−k generieren können, ohne dass die entsprechenden Kameraszenen beteiligt sind. Zweitens wird ein zusätzlicher Objekt-Decoder flexibel angehängt, um die Objektziele anhand des generierten Pseudo-BEV-Features vorherzusagen. Beachten Sie, dass HoP ausschließlich während des Trainings durchgeführt wird, sodass die vorgeschlagene Methode während der Inferenz keine zusätzlichen Rechenkosten verursacht. Als Plug-and-Play-Methode lässt sich HoP problemlos in state-of-the-art-BEV-Detektionsframeworks wie BEVFormer und die BEVDet-Serie integrieren. Darüber hinaus ist der ergänzende HoP-Ansatz komplementär zu gängigen Methoden zur zeitlichen Modellierung und führt zu signifikanten Leistungssteigerungen. Um die Wirksamkeit des vorgeschlagenen HoP-Ansatzes auf dem nuScenes-Datensatz zu evaluieren, wurden umfangreiche Experimente durchgeführt. Wir wählen repräsentative Methoden wie BEVFormer und BEVDet4D-Depth aus, um unsere Methode zu testen. Überraschenderweise erreicht HoP auf dem nuScenes-Testset 68,5 % NDS und 62,4 % mAP mit ViT-L und schlägt damit alle bisherigen 3D-Objektdetektoren auf der Leaderboard. Der Quellcode wird unter https://github.com/Sense-X/HoP verfügbar sein.