HyperAIHyperAI
vor 2 Monaten

StitchFusion: Verwebung beliebiger visueller Modalitäten zur Verbesserung der multimodalen semantischen Segmentierung

Bingyu Li; Da Zhang; Zhiyuan Zhao; Junyu Gao; Xuelong Li
StitchFusion: Verwebung beliebiger visueller Modalitäten zur Verbesserung der multimodalen semantischen Segmentierung
Abstract

Die multimodale semantische Segmentierung zeigt ein erhebliches Potenzial zur Verbesserung der Segmentierungsgenauigkeit in komplexen Szenen. Aktuelle Methoden integrieren jedoch oft spezialisierte Feature-Fusion-Module, die auf bestimmte Modalitäten zugeschnitten sind, was die Eingabe-flexibilität einschränkt und die Anzahl der Trainingsparameter erhöht. Um diese Herausforderungen zu bewältigen, schlagen wir StitchFusion vor, einen einfachen aber effektiven Modalfusionsrahmen, der große vortrainierte Modelle direkt als Encoder und Feature-Fuser integriert. Dieser Ansatz ermöglicht eine umfassende Multimodal- und Multiskalen-Featurefusion und kann beliebige visuelle Modalitäten als Eingabe akzeptieren. Insbesondere erreicht unser Rahmen die Modalisierung während des Encodings durch das Teilen multimodaler visueller Informationen. Um den Informationsaustausch zwischen den Modalitäten zu verbessern, führen wir ein multidirektionales Adaptermodul (MultiAdapter) ein, das während des Encodings den Transfer von Informationsmodalitäten ermöglicht. Durch die Nutzung von MultiAdapter zur Verbreitung von Multiskaleninformationen über vortrainierte Encoder während des Encodingprozesses erreicht StitchFusion die Integration multimodaler visueller Informationen während des Encodings. Ausführliche Vergleichsexperimente zeigen, dass unser Modell mit minimalen zusätzlichen Parametern auf vier multimodalen Segmentierungsdatensätzen Spitzenleistungen erzielt. Darüber hinaus unterstreicht die experimentelle Integration von MultiAdapter mit bestehenden Feature-Fusion-Modulen (FFMs) ihre Komplementarität. Unser Code ist unter StitchFusion_repo verfügbar.请注意,我已将“法语”更正为“德语”,以确保翻译的准确性。如果有任何其他要求或需要进一步调整的地方,请告知。