VehicleNet: Lernen robuster visueller Darstellungen für die Fahrzeug-Wiedererkennung

Ein zentrales Herausforderung bei der Fahrzeug-Identifizierung (Re-Id) besteht darin, robuste und differenzierbare visuelle Repräsentationen zu erlernen, insbesondere aufgrund der erheblichen intra-klassischen Variabilität von Fahrzeugen unter verschiedenen Kameraperspektiven. Da bestehende Fahrzeug-Datensätze hinsichtlich der Anzahl an Trainingsbildern und Blickwinkeln begrenzt sind, schlagen wir vor, einen einzigartigen, großskaligen Fahrzeug-Datensatz (namens VehicleNet) durch die Kombination von vier öffentlichen Fahrzeug-Datensätzen zu erstellen, und entwickeln einen einfachen, aber effektiven zweistufigen, progressiven Ansatz, um robusteren visuellen Repräsentationen aus VehicleNet zu lernen. Im ersten Schritt wird eine generische Repräsentation für alle Domänen (d. h. die Quellfahrzeug-Datensätze) mittels klassischer Klassifikationsverlustfunktionen erlernt. Dieser Schritt lockert die vollständige Ausrichtung zwischen Trainings- und Testdomäne, da er unabhängig von der Ziel-Domäne ist. Im zweiten Schritt wird das bereits trainierte Modell rein basierend auf dem Ziel-Fahrzeug-Datensatz feinabgestimmt, indem der Verteilungsunterschied zwischen unserem VehicleNet und jeder Ziel-Domäne minimiert wird. Wir diskutieren den vorgeschlagenen mehrquellenbasierten Datensatz VehicleNet und evaluieren die Wirksamkeit des zweistufigen, progressiven Lernansatzes anhand umfangreicher Experimente. Wir erreichen eine state-of-the-art Genauigkeit von 86,07 % mAP auf dem privaten Testset der AICity Challenge und konkurrenzfähige Ergebnisse auf zwei weiteren öffentlichen Fahrzeug-Re-Id-Datensätzen, nämlich VeRi-776 und VehicleID. Wir hoffen, dass dieser neue VehicleNet-Datensatz sowie die erlernten robusten Repräsentationen den Weg für die Fahrzeug-Identifizierung in realen Umgebungen ebnen werden.