View-decoupled Transformer für die Person-Identifizierung in einem Luft- und Boden-Kamernetzwerk

Bekannte Methoden zur Personen-Identifizierung haben beachtliche Fortschritte bei der aspektbasierten Identitätszuordnung über homogene Kameras, beispielsweise bei Boden-Boden-Abgleich, erzielt. In der Praxis jedoch, insbesondere im Kontext der luftgestützt-bodenbasierten Personen-Identifizierung (AGPReID) unter heterogenen Kameras, hat diese Aufgabe nur geringe Aufmerksamkeit erfahren. Um die erhebliche Störung der diskriminativen Identitätsrepräsentation durch starke Sichtwinkelunterschiede – die größte Herausforderung in AGPReID – zu verringern, wird der view-decoupled transformer (VDT) als ein einfaches, aber wirksames Framework vorgestellt. Der VDT integriert zwei zentrale Komponenten zur Entkoppelung von sichtbezogenen und sichtunabhängigen Merkmalen: eine hierarchische subtraktive Trennung und eine orthogonale Verlustfunktion. Letztere trennt die beiden Merkmalsarten innerhalb des VDT, während die zweite sicherstellt, dass diese Merkmale voneinander unabhängig sind. Zudem präsentieren wir eine großskalige AGPReID-Datenbank namens CARGO, bestehend aus fünf bzw. acht luftgestützten bzw. bodenbasierten Kameras, 5.000 Identitäten und 108.563 Bildern. Experimente auf zwei Datensätzen zeigen, dass VDT eine praktikable und effektive Lösung für AGPReID darstellt und die vorherigen Methoden sowohl in mAP als auch in Rank1 um bis zu 5,0%/2,7% auf CARGO und 3,7%/5,2% auf AG-ReID übertrifft, wobei die Rechenkomplexität nahezu unverändert bleibt. Das Projekt ist unter https://github.com/LinlyAC/VDT-AGPReID verfügbar.