vor 2 Monaten

Arbiträre multimodale semantische Segmentierung liefern

Jiaming Zhang; Ruiping Liu; Hao Shi; Kailun Yang; Simon Reiß; Kunyu Peng; Haodong Fu; Kaiwei Wang; Rainer Stiefelhagen

Abstract

Die multimodale Fusion kann die semantische Segmentierung robuster machen. Allerdings ist die Fusion einer beliebigen Anzahl von Modalitäten noch wenig erforscht. Um dieses Problem zu untersuchen, erstellen wir den DeLiVER-Benchmark für multimodale Segmentierung, der Tiefe (Depth), LiDAR, mehrere Ansichten (Views), Ereignisse (Events) und RGB abdeckt. Darüber hinaus stellen wir diesen Datensatz in vier schwerwiegenden Wetterbedingungen sowie fünf Fällen von Sensorendefschlüssen zur Verfügung, um die Modalitätskomplementarität auszunutzen und teilweise Ausfälle zu beheben. Um dies zu ermöglichen, präsentieren wir das Modell für multimodale Segmentierung CMNeXt. Es umfasst ein Selbst-Abfrage-Zentrum (Self-Query Hub, SQ-Hub), das darauf ausgelegt ist, effektive Informationen aus jeder Modalität für eine nachfolgende Fusion mit der RGB-Darstellung zu extrahieren und pro zusätzlicher Modalität nur vernachlässigbare Mengen an Parametern (~0,01 Mio.) hinzufügt. Zudem führen wir den einfachen Parallel-Pooling-Mixer (PPX) ein, um diskriminierende Merkmale aus den Hilfsmodalitäten effizient und flexibel zu gewinnen. Mit umfangreichen Experimenten auf insgesamt sechs Benchmarks erreicht unser CMNeXt den aktuellen Stand der Technik auf den Datensätzen DeLiVER, KITTI-360, MFNet, NYU Depth V2, UrbanLF und MCubeS, wobei es sich skalieren lässt von 1 bis 81 Modalitäten. Auf dem frisch gesammelten DeLiVER erreicht das quadrimodale CMNeXt einen mIoU-Wert von bis zu 66,30 % mit einem Gewinn von +9,10 % im Vergleich zur monomodalen Baseline. Der DeLiVER-Datensatz und unser Code sind unter folgender URL verfügbar: https://jamycheung.github.io/DELIVER.html.