HyperAIHyperAI
vor 11 Tagen

Gestapelte Homographietransformationen für die Mehransichtspedestriandetektion

{Junsong Yuan, Yuan Li, Qian Zhang, Ming Yang, Jialian Wu, Liangchen Song}
Gestapelte Homographietransformationen für die Mehransichtspedestriandetektion
Abstract

Die Multi-View-Pedestrian-Detektion zielt darauf ab, eine Vogelperspektive (Bird’s Eye View, BEV)-Besetzungs-Karte aus mehreren Kamerasichten vorherzusagen. Dieser Aufgabe stehen zwei Herausforderungen gegenüber: Wie können 3D-Korrespondenzen zwischen den einzelnen Sichten und der BEV-Karte hergestellt werden, und wie kann die Besetzungs-Information über verschiedene Sichten hinweg zusammengeführt werden? In diesem Artikel stellen wir einen neuartigen Ansatz namens Stacked HOmography Transformations (SHOT) vor, der darauf basiert, Projektionen in Weltkoordinaten des 3D-Raums durch eine Kette von Homographien zu approximieren. Zunächst erstellen wir eine Kette von Transformationen, die es ermöglichen, die einzelnen Sichten auf die Erdoberfläche bei unterschiedlichen Höhenlagen zu projizieren. Anschließend entwerfen wir ein weiches Selektionsmodul, sodass das Netzwerk lernt, die Wahrscheinlichkeit der Kette von Transformationen vorherzusagen. Darüber hinaus liefern wir eine detaillierte theoretische Analyse zur Konstruktion von SHOT und zur Genauigkeit der Approximation der Projektionen im 3D-Weltkoordinatensystem. Experimentell wird gezeigt, dass SHOT in der Lage ist, präzise Korrespondenzen von einzelnen Sichten zur BEV-Karte zu schätzen, was zu einem neuen SOTA-Ergebnis auf etablierten Benchmark-Datenbanken führt.

Gestapelte Homographietransformationen für die Mehransichtspedestriandetektion | Neueste Forschungsarbeiten | HyperAI