HyperAIHyperAI
vor 12 Tagen

Multimodale Objekterkennung durch Kanalumschaltung und räumliche Aufmerksamkeit

{Zheng Liu, Erik Blasch, Jozsef Hamari, Junchi Bin, Yue Cao}
Multimodale Objekterkennung durch Kanalumschaltung und räumliche Aufmerksamkeit
Abstract

In den letzten Jahren hat die multimodale Objektdetektion erhebliche Aufmerksamkeit erfahren, da die Informationen verschiedener Modalitäten sich gegenseitig ergänzen und somit die Genauigkeit und Stabilität des Detektionsmodells effektiv verbessern können. Im Vergleich zur Verarbeitung von Eingaben einer einzigen Modality kann die Fusion von Informationen aus mehreren Modalitäten jedoch die rechnerische Komplexität des Modells erheblich erhöhen und damit dessen Effizienz beeinträchtigen. Daher muss der multimodale Fusionsmodul sorgfältig entworfen werden, um die Leistungsfähigkeit des Detektionsmodells zu steigern, ohne die rechnerischen Ressourcen übermäßig zu belasten. In diesem Artikel stellen wir einen neuartigen, leichtgewichtigen Fusionsmodul vor, der die Eingaben verschiedener Modalitäten effizient mittels Kanalumschaltung und räumlicher Aufmerksamkeit (CSSA, Channel Switching and Spatial Attention) fusioniert. Die Wirksamkeit und Allgemeingültigkeit des Moduls werden anhand zweier öffentlicher multimodaler Datensätze, LLVIP und FLIR, getestet, die jeweils paarweise infrarote (IR) und sichtbare (RGB) Bilder enthalten. Die Experimente zeigen, dass der vorgeschlagene CSSA-Modul die Genauigkeit der multimodalen Objektdetektion erheblich verbessert, ohne dabei übermäßige rechnerische Ressourcen zu verbrauchen.

Multimodale Objekterkennung durch Kanalumschaltung und räumliche Aufmerksamkeit | Neueste Forschungsarbeiten | HyperAI