HyperAIHyperAI

Command Palette

Search for a command to run...

Wenn Fußgängererkennung auf mehrmodales Lernen trifft: Allgemeines Modell und Benchmark-Datensatz

Yi Zhang Wang Zeng Sheng Jin Chen Qian Ping Luo Wentao Liu

Zusammenfassung

In den letzten Jahren hat sich die Forschung zunehmend der Pedestrianderkennung gewidmet, indem sie die Vorteile verschiedener Sensormodalitäten (z.B. RGB, IR, Tiefen- und LiDAR-Daten sowie Ereignisdaten) nutzt. Dennoch stellt die Entwicklung eines einheitlichen Generalistenmodells, das effektiv verschiedene Sensormodalitäten verarbeiten kann, eine Herausforderung dar. Dieses Papier stellt MMPedestron vor, ein neues Generalistenmodell für multimodale Wahrnehmung. Im Gegensatz zu früheren Spezialistenmodellen, die nur eine oder ein Paar spezifischer Modalitätseingaben verarbeiten können, ist MMPedestron in der Lage, mehrere Modaleingaben und deren dynamische Kombinationen zu verarbeiten. Der vorgeschlagene Ansatz umfasst einen einheitlichen Encoder für die Modaldarstellung und -fusion sowie einen allgemeinen Head für die Pedestrianderkennung. Wir führen zwei zusätzliche lernfähige Tokens ein, nämlich MAA und MAF, für eine anpassbare multimodale Merkmalsfusion. Darüber hinaus erstellen wir den MMPD-Datensatz, den ersten großen Benchmark für multimodale Pedestrianderkennung. Dieser Benchmark integriert bestehende öffentliche Datensätze und einen neu gesammelten Datensatz namens EventPed, der eine breite Palette von Sensormodalitäten einschließlich RGB-, IR-, Tiefen-, LiDAR- und Ereignisdaten abdeckt. Durch multimodales gemeinsames Training erreicht unser Modell Spitzenleistungen auf einer Vielzahl von Pedestrianderkennungsbenchmarks und übertrifft führende Modelle, die auf spezifische Sensormodalitäten zugeschnitten sind. Zum Beispiel erreicht es einen AP-Wert von 71,1 auf COCO-Persons und 72,6 auf LLVIP. Bemerkenswerterweise erzielt unser Modell vergleichbare Leistungen wie das InternImage-H-Modell auf CrowdHuman bei einem 30-fach kleineren Parameterumfang. Der Quellcode und die Daten sind unter https://github.com/BubblyYi/MMPedestron verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp