HyperAIHyperAI
vor 2 Monaten

3D-Zufällige Okkusion und Mehrschicht-Projektion für die tiefen Mehrkamerapädasterianlokalisierung

Qiu, Rui ; Xu, Ming ; Yan, Yuyao ; Smith, Jeremy S. ; Yang, Xi
3D-Zufällige Okkusion und Mehrschicht-Projektion für die tiefen Mehrkamerapädasterianlokalisierung
Abstract

Obwohl tiefenlernenbasierte Methoden für die monoäulare Fußgängererkennung große Fortschritte gemacht haben, sind sie immer noch anfällig gegenüber schweren Verdeckungen. Die Nutzung von Multiview-Informationsschaffung ist eine potentielle Lösung, hat aber aufgrund der fehlenden annotierten Trainingsbeispiele in bestehenden Multiview-Datensätzen begrenzte Anwendungen, was das Risiko eines Überanpassungs (Overfitting) erhöht. Um dieses Problem zu lösen, wird eine Datenverstärkungsmethode vorgeschlagen, die zufällig 3D-Zylinder-Verdeckungen auf der Bodenebene generiert. Diese Verdeckungen sind im Durchschnitt so groß wie Fußgänger und werden in mehrere Ansichten projiziert, um den Einfluss des Überanpassungs während des Trainings zu reduzieren. Des Weiteren werden die Merkmalskarten jeder Ansicht mithilfe von Homographien auf mehrere parallele Ebenen unterschiedlicher Höhe projiziert. Dies ermöglicht es den CNNs (Convolutional Neural Networks), die Merkmale über die gesamte Höhe jedes Fußgängers vollständig auszuwerten, um deren Positionen auf der Bodenebene zu bestimmen. Die vorgeschlagene 3DROM-Methode weist im Vergleich zu den besten tiefenlernenbasierten Methoden für die Multiview-Fußgängererkennung eine erheblich verbesserte Leistung auf.