vor 16 Tagen

RGB-D saliente Objekterkennung mit Kreuzmodalkontrolle und -auswahl

Chongyi Li, Runmin Cong, Yongri Piao, Qianqian Xu, Chen Change Loy

Abstract

Wir stellen eine effektive Methode zur schrittweisen Integration und Verfeinerung der komplementären Informationen zwischen Modalitäten für die RGB-D-Salient-Object-Detection (SOD) vor. Das vorgeschlagene Netzwerk löst hauptsächlich zwei herausfordernde Probleme: 1) Wie kann die komplementäre Information aus dem RGB-Bild und seinem entsprechenden Tiefenbild effektiv integriert werden? 2) Wie können Merkmale, die stärker mit der Aufmerksamkeit zusammenhängen, adaptiv ausgewählt werden? Zunächst führen wir ein Cross-Modality Feature Modulation (cmFM)-Modul ein, das die Merkmalsdarstellungen durch Nutzung der Tiefenmerkmale als Prior verbessert und somit die komplementären Beziehungen zwischen RGB-D-Daten modelliert. Zweitens stellen wir ein adaptives Merkmalsauswahl-Modul (Adaptive Feature Selection, AFS) vor, das salienzrelevante Merkmale auswählt und schwächere unterdrückt. Das AFS-Modul nutzt eine mehrmodale räumliche Merkmalsfusion, wobei sowohl die innermodale als auch die zwischenmodale Wechselwirkung der Kanalmerkmale berücksichtigt werden. Drittens verwenden wir ein salienzgeleitetes Position-Edge-Attention (sg-PEA)-Modul, um das Netzwerk dazu zu bringen, sich stärker auf salienzrelevante Regionen zu konzentrieren. Diese Module bilden gemeinsam einen cmMS-Block, der die Verfeinerung der Salienzmerkmale in einer grob-zu-fein-Strategie ermöglicht. In Kombination mit einer bottom-up-Inferenz erlauben die verfeinerten Salienzmerkmale eine präzise und kantenbewahrende SOD. Ausführliche Experimente zeigen, dass unser Netzwerk auf sechs etablierten RGB-D-SOD-Benchmarks die bisher besten SOD-Methoden übertrifft.