Echtzeit-Objekterkennung für Streaming-Wahrnehmung

Autonomes Fahren erfordert, dass das Modell die Umwelt wahrnimmt und innerhalb geringer Latenzzeiten auf Veränderungen reagiert, um Sicherheit zu gewährleisten. Während frühere Arbeiten die unvermeidlichen Umweltveränderungen nach der Verarbeitung ignorieren, wird Streaming-Wahrnehmung vorgeschlagen, um Latenz und Genauigkeit gemeinsam in einer einzigen Metrik für die Online-Wahrnehmung von Videos zu bewerten. In diesem Artikel zeigen wir, dass es im Gegensatz zu früheren Ansätzen, die Kompromisse zwischen Genauigkeit und Geschwindigkeit suchen, entscheidend ist, Echtzeit-Modelle mit der Fähigkeit auszustatten, die Zukunft vorherzusagen, um dieses Problem zu bewältigen. Wir stellen einen einfachen und effektiven Rahmen für Streaming-Wahrnehmung vor, der einen neuartigen DualFlow-Wahrnehmungsmodul (DFP) enthält, der dynamische und statische Flüsse integriert, um sowohl die Bewegungstrends als auch die grundlegenden Detektionsmerkmale für die Streaming-Vorhersage zu erfassen. Darüber hinaus führen wir eine trendbewusste Verlustfunktion (Trend-Aware Loss, TAL) mit einem Trendfaktor ein, um adaptive Gewichte für Objekte mit unterschiedlichen Bewegungsgeschwindigkeiten zu generieren. Unser einfacher Ansatz erzielt wettbewerbsfähige Ergebnisse auf dem Argoverse-HD-Datensatz und verbessert die AP im Vergleich zu einem starken Baseline um 4,9 %, was die Wirksamkeit unserer Methode bestätigt. Der Quellcode wird unter https://github.com/yancie-yjr/StreamYOLO verfügbar gemacht.