HyperAIHyperAI
vor 11 Tagen

Konsistenz von impliziten und expliziten Merkmalen ist für die monokulare 3D-Objekterkennung von Bedeutung

Qian Ye, Ling Jiang, Wang Zhen, Yuyang Du
Konsistenz von impliziten und expliziten Merkmalen ist für die monokulare 3D-Objekterkennung von Bedeutung
Abstract

Niedrigkostige autonome Agenten, darunter insbesondere autonome Fahrzeuge, nutzen hauptsächlich die monokulare 3D-Objekterkennung zur Wahrnehmung der Umgebung. Diese Arbeit untersucht Methoden zur Erzeugung von 3D-Zwischendarstellungen, die Zwischen-3D-Features für nachfolgende Aufgaben generieren. Beispielsweise können diese 3D-Features nicht nur als Eingabe für die Erkennung, sondern auch für end-to-end-Vorhersagen und/oder Planung verwendet werden, die eine Bird’s-Eye-View-(BEV)-Darstellung erfordern. In unserer Studie stellen wir fest, dass bisherige Ansätze bei der Generierung von 3D-Darstellungen die Konsistenz zwischen den impliziten Orientierungen der Objekte im Latentraum und den explizit beobachteten Orientierungen im euklidischen Raum nicht ausreichend aufrechterhalten, was die Modellleistung erheblich beeinträchtigen kann. Um dieses Problem anzugehen, präsentieren wir eine neuartige monokulare Erkennungsmethode, die die erste ist, die die Orientierungen bewusst berücksichtigt, um gezielt eine Konsistenz zwischen impliziten und expliziten Features zu gewährleisten. Zudem führen wir eine lokale Strahlen-Attention-Mechanismus ein, um Bildfeatures effizient und präzise an den korrekten 3D-Positionen in Voxel-Darstellung zu transformieren. Drittens schlagen wir eine handgefertigte Gauss’sche Positionscodierungsfunktion vor, die die sinusförmige Codierung übertrifft, gleichzeitig aber die Vorteile einer kontinuierlichen Darstellung bewahrt. Die Ergebnisse zeigen, dass unsere Methode die aktuell beste Methode zur 3D-Zwischendarstellung um 3,15 % verbessert. Zum Zeitpunkt der Einreichung der Ergebnisse belegen wir den ersten Platz unter allen berichteten monokularen Methoden sowohl im 3D- als auch im BEV-Erkennungsbenchmark auf dem KITTI-Leaderboard.

Konsistenz von impliziten und expliziten Merkmalen ist für die monokulare 3D-Objekterkennung von Bedeutung | Neueste Forschungsarbeiten | HyperAI