MMTM: Multimodulare Übertragungsmodul für CNN-Fusion

Bei der späten Fusion wird jeder Modality separat in einem einmodalen Faltungsneuralen Netzwerk (Convolutional Neural Network, CNN) verarbeitet, und die Ergebnisse der einzelnen Modalitäten werden am Ende fusioniert. Aufgrund seiner Einfachheit bleibt die späte Fusion bis heute die dominierende Herangehensweise in vielen state-of-the-art-Anwendungen für multimodale Systeme. In diesem Artikel stellen wir ein einfaches neuronales Netzwerkmodul vor, das es ermöglicht, das Wissen mehrerer Modalitäten in Faltungsneuralen Netzen effektiv zu nutzen. Das vorgeschlagene Modul, benannt als Multimodal Transfer Module (MMTM), kann an verschiedenen Ebenen der Merkmalshierarchie integriert werden, wodurch eine langsame, schrittweise Fusion der Modalitäten ermöglicht wird. Durch die Verwendung von Squeeze-and-Excitation-Operationen nutzt MMTM das Wissen mehrerer Modalitäten, um die kanalweise Merkmalsrepräsentation in jeder CNN-Strömung neu zu kalibrieren. Im Gegensatz zu anderen Methoden der intermediären Fusion kann das vorgeschlagene Modul zur Merkmalsfusion in Faltungsschichten mit unterschiedlichen räumlichen Dimensionen eingesetzt werden. Ein weiterer Vorteil der vorgeschlagenen Methode ist, dass sie mit minimalen Änderungen an den Architekturen der einmodalen Zweige integriert werden kann, wodurch jeder Zweig mit bereits vortrainierten Gewichten initialisiert werden kann. Experimentelle Ergebnisse zeigen, dass unser Framework die Erkennungsgenauigkeit bekannter multimodaler Netzwerke verbessert. Wir demonstrieren state-of-the-art- oder wettbewerbsfähige Leistung auf vier Datensätzen, die die Aufgabengebiete der dynamischen Handgesten-Erkennung, Sprachverbesserung und Aktionserkennung mit RGB-Bildern und Körpergelenkdaten abdecken.