Lernen selektiver selbst-mutueller Aufmerksamkeit für die RGB-D-Aufmerksamkeitsdetektion

Die Saliency-Detektion auf RGB-D-Bildern erfährt in letzter Zeit zunehmendes Forschungsinteresse. Bisherige Modelle nutzen entweder ein frühes Fusionsverfahren oder ein Ergebnisfusionsverfahren, um die Eingabedaten aus RGB- und Tiefenbildern oder deren Saliency-Karten zu kombinieren, was jedoch Probleme wie einen Verteilungsabstand oder Informationsverlust verursacht. Andere Modelle setzen hingegen ein Merkmalsfusionsverfahren ein, sind jedoch durch lineare Merkmalsfusionsmethoden eingeschränkt. In diesem Artikel schlagen wir vor, die Aufmerksamkeit, die in beiden Modalitäten gelernt wurde, zu fusionieren. Inspiriert vom Non-local-Modell integrieren wir sowohl die Selbst-Aufmerksamkeit als auch die gegenseitige Aufmerksamkeit, um langreichweitige kontextuelle Abhängigkeiten zu propagieren und somit multimodale Informationen effizienter zu nutzen, um Aufmerksamkeit präziser zu lernen und Kontexte besser zu propagieren. Berücksichtigend die Zuverlässigkeit der Aufmerksamkeit der anderen Modality schlagen wir weiterhin eine Auswahl-Aufmerksamkeitsmethode vor, um den neu hinzugefügten Aufmerksamkeits-Term zu gewichten. Wir integrieren das vorgeschlagene Aufmerksamkeitsmodul in ein zweistromiges CNN für die RGB-D-Saliency-Detektion. Zusätzlich stellen wir ein Residual-Fusionsmodul vor, um die Tiefen-Decoder-Merkmale in den RGB-Stream zu integrieren. Experimentelle Ergebnisse auf sieben Benchmark-Datensätzen belegen die Wirksamkeit der vorgeschlagenen Modulkomponenten sowie des endgültigen Saliency-Modells. Unser Code und die generierten Saliency-Karten sind unter https://github.com/nnizhang/S2MA verfügbar.