HyperAIHyperAI
vor 2 Monaten

Wenn Fußgängererkennung auf mehrmodales Lernen trifft: Allgemeines Modell und Benchmark-Datensatz

Zhang, Yi ; Zeng, Wang ; Jin, Sheng ; Qian, Chen ; Luo, Ping ; Liu, Wentao
Wenn Fußgängererkennung auf mehrmodales Lernen trifft: Allgemeines Modell und Benchmark-Datensatz
Abstract

In den letzten Jahren hat sich die Forschung zunehmend der Pedestrianderkennung gewidmet, indem sie die Vorteile verschiedener Sensormodalitäten (z.B. RGB, IR, Tiefen- und LiDAR-Daten sowie Ereignisdaten) nutzt. Dennoch stellt die Entwicklung eines einheitlichen Generalistenmodells, das effektiv verschiedene Sensormodalitäten verarbeiten kann, eine Herausforderung dar. Dieses Papier stellt MMPedestron vor, ein neues Generalistenmodell für multimodale Wahrnehmung. Im Gegensatz zu früheren Spezialistenmodellen, die nur eine oder ein Paar spezifischer Modalitätseingaben verarbeiten können, ist MMPedestron in der Lage, mehrere Modaleingaben und deren dynamische Kombinationen zu verarbeiten. Der vorgeschlagene Ansatz umfasst einen einheitlichen Encoder für die Modaldarstellung und -fusion sowie einen allgemeinen Head für die Pedestrianderkennung. Wir führen zwei zusätzliche lernfähige Tokens ein, nämlich MAA und MAF, für eine anpassbare multimodale Merkmalsfusion. Darüber hinaus erstellen wir den MMPD-Datensatz, den ersten großen Benchmark für multimodale Pedestrianderkennung. Dieser Benchmark integriert bestehende öffentliche Datensätze und einen neu gesammelten Datensatz namens EventPed, der eine breite Palette von Sensormodalitäten einschließlich RGB-, IR-, Tiefen-, LiDAR- und Ereignisdaten abdeckt. Durch multimodales gemeinsames Training erreicht unser Modell Spitzenleistungen auf einer Vielzahl von Pedestrianderkennungsbenchmarks und übertrifft führende Modelle, die auf spezifische Sensormodalitäten zugeschnitten sind. Zum Beispiel erreicht es einen AP-Wert von 71,1 auf COCO-Persons und 72,6 auf LLVIP. Bemerkenswerterweise erzielt unser Modell vergleichbare Leistungen wie das InternImage-H-Modell auf CrowdHuman bei einem 30-fach kleineren Parameterumfang. Der Quellcode und die Daten sind unter https://github.com/BubblyYi/MMPedestron verfügbar.

Wenn Fußgängererkennung auf mehrmodales Lernen trifft: Allgemeines Modell und Benchmark-Datensatz | Neueste Forschungsarbeiten | HyperAI