HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der multimodalen Fußgängerdetektion durch verallgemeinerte 3D-Feature-Extraktion

Junghyun Cho Hyungjoo Jung Haesol Park Sithu Aung

Zusammenfassung

Die zentrale Herausforderung bei der Multi-View-Personenerkennung besteht darin, sichtspezifische Merkmale in einen einheitlichen Raum zu integrieren, um eine umfassende end-to-end-Wahrnehmung zu ermöglichen. Bisherige Ansätze zur Multi-View-Erkennung haben sich darauf konzentriert, perspektivische Merkmale auf die Erdoberfläche abzubilden und so eine „Bird’s Eye View“ (BEV)-Darstellung der Szene zu erzeugen. In dieser Arbeit wird eine einfache, aber effektive Architektur vorgestellt, die eine nicht-parametrische 3D-Merkmals-Ausziehung (feature-pulling)-Strategie nutzt. Diese Strategie extrahiert direkt die entsprechenden 2D-Merkmale für jeden gültigen Voxel innerhalb des 3D-Merkmalsvolumens und löst so das Problem des Merkmalsverlusts, das bei früheren Methoden auftreten konnte. Der vorgeschlagene Rahmen führt drei neuartige Module ein, die jeweils darauf abzielen, die Generalisierungsfähigkeit von Multi-View-Erkennungssystemen zu verbessern. Durch umfangreiche Experimente wird die Wirksamkeit des vorgeschlagenen Modells nachgewiesen. Die Ergebnisse zeigen eine neue State-of-the-Art-Genauigkeit, sowohl in herkömmlichen Szenarien als auch insbesondere im Kontext von Benchmarks zur Szenen-Generalisierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp