HyperAIHyperAI
vor 2 Monaten

MMSFormer: Multimodaler Transformer für Material- und Semantische Segmentierung

Md Kaykobad Reza; Ashley Prater-Bennette; M. Salman Asif
MMSFormer: Multimodaler Transformer für Material- und Semantische Segmentierung
Abstract

Das Nutzen von Informationen aus verschiedenen Modalitäten ist bekannt dafür, die Leistung bei multimodalen Segmentierungsaufgaben zu verbessern. Allerdings bleibt die effektive Fusion von Informationen aus unterschiedlichen Modalitäten aufgrund der einzigartigen Eigenschaften jeder Modalität eine Herausforderung. In dieser Arbeit schlagen wir eine neuartige Fusionsstrategie vor, die es ermöglicht, Informationen aus verschiedenen Modalkombinationen effektiv zu fusionieren. Zudem stellen wir ein neues Modell namens Multi-Modale Segmentierungstransformer (MMSFormer) vor, das die vorgeschlagene Fusionsstrategie integriert, um multimodale Material- und semantische Segmentierungsaufgaben durchzuführen. Der MMSFormer übertrifft aktuelle state-of-the-art Modelle auf drei verschiedenen Datensätzen. Während wir mit nur einer Eingabemodalität beginnen, verbessert sich die Leistung schrittweise, wenn zusätzliche Modalitäten integriert werden, was die Effektivität des Fusionsblocks bei der Kombination nützlicher Informationen aus diversen Eingabemodalitäten unterstreicht. Abstraktionsstudien zeigen, dass verschiedene Module im Fusionsblock für die Gesamtleistung des Modells entscheidend sind. Darüber hinaus heben unsere Abstraktionsstudien auch die Kapazität verschiedener Eingabemodalitäten hervor, um die Leistung bei der Identifikation verschiedener Materialarten zu verbessern. Der Code und die vortrainierten Modelle werden unter https://github.com/csiplab/MMSFormer zur Verfügung gestellt.

MMSFormer: Multimodaler Transformer für Material- und Semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI