Lösung auf Platz 2 für den Waymo Open Dataset Challenge – Echtzeit-2D-Objekterkennung

In einem autonomen Fahrzeugsystem ist es entscheidend, Fahrzeuge, Fußgänger und Radfahrer aus Bildern zu erkennen. Neben der hohen Genauigkeit der Vorhersage bringt die Anforderung an Echtzeitverarbeitung neue Herausforderungen für konvolutionale Netzwerkmodelle mit sich. In diesem Bericht stellen wir eine Echtzeitmethode zur Detektion von 2D-Objekten aus Bildern vor. Wir kombinieren mehrere gängige One-Stage-Objektdetektoren und trainieren die Modelle unabhängig voneinander mit unterschiedlichen Eingabestrategien, um eine verbesserte Leistung bei der präzisen Mehrskalen-Detektion jeder Kategorie zu erzielen, insbesondere für kleine Objekte. Zur Beschleunigung des Modells nutzen wir TensorRT, um die Inferenzzeit unserer Detektionspipeline zu optimieren. Wie auf der Rangliste ersichtlich ist, erreicht unser vorgeschlagenes Detektionsframework bei der Echtzeit-2D-Detektion im Waymo Open Dataset Challenge den zweiten Platz mit 75,00 % L1 mAP und 69,72 % L2 mAP, während unsere Architektur eine Latenz von 45,8 ms/Frames auf einer Nvidia Tesla V100 GPU erzielt.