RGB-D saliente Objekterkennung mit Kreuzmodalkontrolle und -auswahl

Wir stellen eine effektive Methode zur schrittweisen Integration und Verfeinerung der komplementären Informationen zwischen Modalitäten für die RGB-D-Salient-Object-Detection (SOD) vor. Das vorgeschlagene Netzwerk löst hauptsächlich zwei herausfordernde Probleme: 1) Wie kann die komplementäre Information aus dem RGB-Bild und seinem entsprechenden Tiefenbild effektiv integriert werden? 2) Wie können Merkmale, die stärker mit der Aufmerksamkeit zusammenhängen, adaptiv ausgewählt werden? Zunächst führen wir ein Cross-Modality Feature Modulation (cmFM)-Modul ein, das die Merkmalsdarstellungen durch Nutzung der Tiefenmerkmale als Prior verbessert und somit die komplementären Beziehungen zwischen RGB-D-Daten modelliert. Zweitens stellen wir ein adaptives Merkmalsauswahl-Modul (Adaptive Feature Selection, AFS) vor, das salienzrelevante Merkmale auswählt und schwächere unterdrückt. Das AFS-Modul nutzt eine mehrmodale räumliche Merkmalsfusion, wobei sowohl die innermodale als auch die zwischenmodale Wechselwirkung der Kanalmerkmale berücksichtigt werden. Drittens verwenden wir ein salienzgeleitetes Position-Edge-Attention (sg-PEA)-Modul, um das Netzwerk dazu zu bringen, sich stärker auf salienzrelevante Regionen zu konzentrieren. Diese Module bilden gemeinsam einen cmMS-Block, der die Verfeinerung der Salienzmerkmale in einer grob-zu-fein-Strategie ermöglicht. In Kombination mit einer bottom-up-Inferenz erlauben die verfeinerten Salienzmerkmale eine präzise und kantenbewahrende SOD. Ausführliche Experimente zeigen, dass unser Netzwerk auf sechs etablierten RGB-D-SOD-Benchmarks die bisher besten SOD-Methoden übertrifft.