HyperAIHyperAI
vor 2 Monaten

Mehrsichtsdetektion mit Merkmalsperspektiventransformation

Yunzhong Hou; Liang Zheng; Stephen Gould
Mehrsichtsdetektion mit Merkmalsperspektiventransformation
Abstract

Die Einbeziehung mehrerer Kameraperspektiven zur Erkennung mildert den Einfluss von Verdeckungen in dichten Szenen. Bei einem Mehrkamerasystem müssen wir zwei wichtige Fragen beantworten, wenn es um die Auflösung von durch Verdeckungen entstandenen Unsicherheiten geht. Erstens: Wie sollten wir Hinweise aus den verschiedenen Perspektiven aggregieren? Zweitens: Wie sollten wir räumliche 2D- und 3D-Informationen, die durch Verdeckungen beeinträchtigt sind, zusammenfassen? Um diese Fragen zu klären, schlagen wir ein neues Mehrkamerasystem vor, das MVDet genannt wird. Für die Aggregation von Mehrkamerasichtern verwenden bestehende Methoden Anchor-Box-Features aus der BildEbene, was aufgrund ungenauer Anchor-Box-Formen und -Größen die Leistung potentiell einschränkt. Im Gegensatz dazu greifen wir auf einen anchorfreien Ansatz zurück, um Mehrkamerasinformationen durch Projektion von Feature Maps auf die Bodenebene (Vogelperspektive) zu aggregieren. Um verbleibende räumliche Unsicherheiten zu lösen, wenden wir große Kernkonvolutionen auf die Feature Map der Bodenebene an und leiten Orte aus Erkennungsspitzen ab. Unser gesamtes Modell ist end-to-end lernfähig und erreicht 88,2 % MODA im Standard-Wildtrack-Datensatz, was den aktuellen Stand der Technik um 14,1 % übertrifft. Wir stellen außerdem eine detaillierte Analyse von MVDet im neu eingeführten synthetischen Datensatz MultiviewX bereit, der es uns ermöglicht, den Grad der Verdeckung zu kontrollieren. Der Code und der Datensatz MultiviewX sind unter https://github.com/hou-yz/MVDet verfügbar.

Mehrsichtsdetektion mit Merkmalsperspektiventransformation | Neueste Forschungsarbeiten | HyperAI