Progressiv komplementaritätsbewusste Fusionsnetzwerk für die RGB-D-aufmerksamkeitsstarke Objekterkennung

Die ausreichende Berücksichtigung der komplementären Beziehungen zwischen Modalitäten ist die zentrale Herausforderung bei der RGB-D-Salient-Object-Detection. Bisherige Ansätze behandeln diese Frage hauptsächlich durch einfaches Kombinieren mehrerer Modaltitätsmerkmale oder durch die Fusion unimodaler Vorhersagen. In diesem Artikel beantworten wir diese zentrale Frage aus zwei Perspektiven: (1) Wir argumentieren, dass sich die cross-modalen Komplementaritäten besser erfassen lassen, wenn deren komplementäre Anteile expliziter modelliert werden. Dazu entwickeln wir ein neuartiges, komplementaritätsbewusstes Fusionsmodul (CA-Fuse), das in Kombination mit einem Convolutional Neural Network (CNN) eingesetzt wird. Durch die Einführung von cross-modalen Residual-Funktionen und komplementaritätsbewusster Supervision innerhalb jedes CA-Fuse-Moduls wird das Lernen komplementärer Informationen aus den gepaarten Modalitäten explizit als asymptotische Approximation der Residual-Funktion formuliert. (2) Wir erforschen die Komplementarität über alle Hierarchieebenen hinweg. Durch die Kaskadierung des CA-Fuse-Moduls und die Einführung von niveaugewichteter Supervision von tiefen zu flachen Schichten hin wird die cross-level-Komplementarität schrittweise selektiert und kombiniert. Das vorgeschlagene RGB-D-Fusionsnetzwerk klärt sowohl den cross-modalen als auch den cross-level-Fusionsprozess und ermöglicht eine umfassendere Fusionsleistung. Experimente auf öffentlichen Datensätzen belegen die Wirksamkeit des vorgeschlagenen CA-Fuse-Moduls sowie des RGB-D-Salient-Object-Detection-Netzwerks.