Robustheit gegenüber fehlenden Modalitäten bei semi-supervised multi-modaler semantischer Segmentierung

Die Verwendung mehrerer räumlicher Modalitäten hat sich als hilfreich erwiesen, um die Leistung der semantischen Segmentierung zu verbessern. Dennoch bestehen mehrere praktische Herausforderungen, die bisher noch nicht gelöst wurden: (a) die Steigerung der Label-Effizienz und (b) die Verbesserung der Robustheit in realistischen Szenarien, in denen Modalitäten während der Testphase fehlen. Um diese Herausforderungen anzugehen, schlagen wir zunächst einen einfachen, aber effizienten Ansatz zur multimodalen Fusion namens Linear Fusion vor, der selbst bei eingeschränkter Aufsicht die Leistung von state-of-the-art multimodalen Modellen übertrifft. Zweitens präsentieren wir M3L: Multi-modal Teacher for Masked Modality Learning, einen halbüberwachten Rahmen, der nicht nur die multimodale Leistung steigert, sondern auch die Robustheit gegenüber realistischen Szenarien mit fehlenden Modalitäten durch Nutzung unlabeled Daten gewährleistet. Wir erstellen erstmals eine Benchmark für halbüberwachte multimodale semantische Segmentierung und berichten zudem über die Robustheit gegenüber fehlenden Modalitäten. Unser Ansatz zeigt eine absolute Verbesserung von bis zu 10 % im robusten mIoU gegenüber den konkurrenzstärksten Baselines. Der Quellcode ist unter https://github.com/harshm121/M3L verfügbar.