HyperAIHyperAI

Command Palette

Search for a command to run...

Arbiträre multimodale semantische Segmentierung liefern

Jiaming Zhang; Ruiping Liu; Hao Shi; Kailun Yang; Simon Reiß; Kunyu Peng; Haodong Fu; Kaiwei Wang; Rainer Stiefelhagen

Zusammenfassung

Die multimodale Fusion kann die semantische Segmentierung robuster machen. Allerdings ist die Fusion einer beliebigen Anzahl von Modalitäten noch wenig erforscht. Um dieses Problem zu untersuchen, erstellen wir den DeLiVER-Benchmark für multimodale Segmentierung, der Tiefe (Depth), LiDAR, mehrere Ansichten (Views), Ereignisse (Events) und RGB abdeckt. Darüber hinaus stellen wir diesen Datensatz in vier schwerwiegenden Wetterbedingungen sowie fünf Fällen von Sensorendefschlüssen zur Verfügung, um die Modalitätskomplementarität auszunutzen und teilweise Ausfälle zu beheben. Um dies zu ermöglichen, präsentieren wir das Modell für multimodale Segmentierung CMNeXt. Es umfasst ein Selbst-Abfrage-Zentrum (Self-Query Hub, SQ-Hub), das darauf ausgelegt ist, effektive Informationen aus jeder Modalität für eine nachfolgende Fusion mit der RGB-Darstellung zu extrahieren und pro zusätzlicher Modalität nur vernachlässigbare Mengen an Parametern (~0,01 Mio.) hinzufügt. Zudem führen wir den einfachen Parallel-Pooling-Mixer (PPX) ein, um diskriminierende Merkmale aus den Hilfsmodalitäten effizient und flexibel zu gewinnen. Mit umfangreichen Experimenten auf insgesamt sechs Benchmarks erreicht unser CMNeXt den aktuellen Stand der Technik auf den Datensätzen DeLiVER, KITTI-360, MFNet, NYU Depth V2, UrbanLF und MCubeS, wobei es sich skalieren lässt von 1 bis 81 Modalitäten. Auf dem frisch gesammelten DeLiVER erreicht das quadrimodale CMNeXt einen mIoU-Wert von bis zu 66,30 % mit einem Gewinn von +9,10 % im Vergleich zur monomodalen Baseline. Der DeLiVER-Datensatz und unser Code sind unter folgender URL verfügbar: https://jamycheung.github.io/DELIVER.html.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Arbiträre multimodale semantische Segmentierung liefern | Paper | HyperAI