HyperAIHyperAI
vor 13 Tagen

Spezifitätsbewahrende RGB-D-Aufmerksamkeitsdetektion

Tao Zhou, Deng-Ping Fan, Geng Chen, Yi Zhou, Huazhu Fu
Spezifitätsbewahrende RGB-D-Aufmerksamkeitsdetektion
Abstract

Die Erkennung auffälliger Objekte (Salient Object Detection, SOD) auf RGB- und Tiefenbildern hat aufgrund ihrer Effektivität und der nunmehr einfachen Verfügbarkeit von Tiefeninformationen zunehmend an Forschungsinteresse gewonnen. Bestehende RGB-D-SOD-Modelle verwenden in der Regel unterschiedliche Fusionsstrategien, um eine gemeinsame Darstellung aus beiden Modalitäten (also RGB und Tiefeninformation) zu erlernen, während nur wenige Ansätze explizit berücksichtigen, wie modality-spezifische Merkmale erhalten werden können. In dieser Arbeit stellen wir einen neuen Ansatz vor, den wir SPNet (Specificity-preserving network) nennen, der die SOD-Leistung durch die gleichzeitige Exploration sowohl gemeinsamer Informationen als auch modality-spezifischer Eigenschaften (z. B. Spezifität) verbessert. Konkret schlagen wir vor, zwei modality-spezifische Netzwerke sowie ein gemeinsames Lernnetzwerk einzusetzen, um jeweils individuelle und gemeinsame Aufmerksamkeitsvorhersagemappe zu generieren. Um die Fusionsleistung von quermodalen Merkmalen im gemeinsamen Lernnetzwerk effektiv zu gestalten, führen wir ein cross-enhanced integration module (CIM) ein und übertragen das gefundene Merkmal anschließend in die nächste Schicht, um informationen über mehrere Ebenen zu integrieren. Darüber hinaus schlagen wir ein multi-modal feature aggregation (MFA)-Modul vor, um reichhaltige ergänzende multimodale Informationen zu erfassen und die modality-spezifischen Merkmale aus jedem einzelnen Dekoder in den gemeinsamen Dekoder zu integrieren. Durch die Verwendung einer Skip-Verbindung können hierarchische Merkmale zwischen Encoder- und Decoder-Schichten vollständig kombiniert werden. Umfangreiche Experimente zeigen, dass unser Ansatz auf sechs gängigen RGB-D-SOD-Benchmark-Datensätzen sowie auf drei Camouflage-Objekt-Erkennungs-Benchmarks die state-of-the-art-Methoden übertrifft. Das Projekt ist öffentlich zugänglich unter: https://github.com/taozh2017/SPNet.