HyperAIHyperAI
vor 2 Monaten

3D-DETNet: Ein einstufiger, video-basierter Fahrzeugdetektor

Suichan Li
3D-DETNet: Ein einstufiger, video-basierter Fahrzeugdetektor
Abstract

Die videobasierte Fahrzeugerkennung hat in den letzten zehn Jahren erhebliche Aufmerksamkeit erfahren, und es gibt viele tiefes Lernen basierende Erkennungsverfahren, die darauf angewendet werden können. Allerdings sind diese Verfahren für stille Bilder konzipiert, und ihre direkte Anwendung auf die videobasierte Fahrzeugerkennung führt oft zu schlechten Ergebnissen. In dieser Arbeit schlagen wir einen neuen einstufigen videobasierten Fahrzeugdetektor vor, der 3DCovNet und Focal Loss integriert. Dieser Detektor wird als 3D-DETNet bezeichnet. Dank des 3D-Konvolutionssystems (3D Convolution network) und des Focal Loss verfügt unsere Methode über die Fähigkeit, Bewegungsinformationen zu erfassen, und ist besser geeignet zur Erkennung von Fahrzeugen in Videos als andere einstufige Methoden, die für statische Bilder entwickelt wurden. Mehrere Videosequenzen werden zunächst dem 3D-DETNet zugeführt, um mehrere räumliche Merkmalskarten zu generieren. Anschließend nimmt das Untermodell 3DConvNet diese räumlichen Merkmalskarten als Eingabe entgegen, um zeitliche Informationen zu erfassen, die an das endgültige vollständig konvolutive Modell weitergeleitet werden, um die Positionen der Fahrzeuge in den Videosequenzen vorherzusagen. Wir evaluieren unsere Methode am UA-DETAC-Fahrzeugerkennungsdatensatz, und unser 3D-DETNet erzielt die besten Leistungen und behält eine höhere Erkennungsgeschwindigkeit von 26 Bildern pro Sekunde (fps) im Vergleich zu anderen wettbewerbsfähigen Methoden.