HyperAIHyperAI
vor 19 Tagen

Lernen tiefer multimodaler Merkmalsdarstellungen mit asymmetrischer mehrschichtiger Fusion

Yikai Wang, Fuchun Sun, Ming Lu, Anbang Yao
Lernen tiefer multimodaler Merkmalsdarstellungen mit asymmetrischer mehrschichtiger Fusion
Abstract

Wir stellen einen kompakten und effektiven Rahmen zur Fusions mehrerer Modaltitäten auf mehreren Schichten innerhalb eines einzigen Netzwerks vor. Der Rahmen basiert auf zwei innovativen Fusionsstrategien. Erstens zeigen wir, dass multimodale Merkmale innerhalb eines gemeinsamen, einzigen Netzwerks erlernt werden können, indem lediglich modality-spezifische Batch-Normalisierungsschichten im Encoder beibehalten werden – im Gegensatz zu bestehenden multimodalen Methoden, die für verschiedene Modaltitäten separate Encoder erfordern. Dies ermöglicht zudem eine implizite Fusionswirkung durch gemeinsame Lernung von Merkmalsrepräsentationen. Zweitens schlagen wir eine bidirektionale mehrschichtige Fusionsstrategie vor, bei der multimodale Merkmale schrittweise ausgenutzt werden können. Um diese Strategie optimal zu nutzen, führen wir zwei asymmetrische Fusionsoperationen ein: Channel Shuffle und Pixel Shift. Diese lernen unterschiedliche gefundene Merkmale je nach Fusionsrichtung. Beide Operationen sind parameterfrei und verstärken die Interaktionen zwischen Kanälen sowie die räumliche Merkmalsunterscheidung innerhalb der Kanäle. Wir führen umfangreiche Experimente an Aufgaben der semantischen Segmentierung und Bildübersetzung durch, basierend auf drei öffentlich verfügbaren Datensätzen, die eine Vielzahl verschiedener Modaltitäten abdecken. Die Ergebnisse zeigen, dass der vorgeschlagene Rahmen allgemein gültig, kompakt und den derzeit besten Fusionsrahmen übertrifft.

Lernen tiefer multimodaler Merkmalsdarstellungen mit asymmetrischer mehrschichtiger Fusion | Forschungsarbeiten | HyperAI