HyperAIHyperAI
vor 13 Tagen

DPANet: Depth Potentiality-Aware Gated Attention Network für RGB-D auffällige Objekterkennung

Zuyao Chen, Runmin Cong, Qianqian Xu, Qingming Huang
DPANet: Depth Potentiality-Aware Gated Attention Network für RGB-D auffällige Objekterkennung
Abstract

Bei der RGB-D-Salient-Objekterkennung bestehen zwei zentrale Herausforderungen: (1) die effektive Integration der Komplementarität zwischen den beiden Modalen RGB und Tiefenbild (depth map); (2) die Vermeidung des Kontaminations-Effekts durch unzuverlässige Tiefeninformationen. Tatsächlich sind diese beiden Probleme eng verknüpft und wechselwirken miteinander. Bisherige Ansätze konzentrieren sich jedoch überwiegend auf das erste Problem und vernachlässigen die Berücksichtigung der Qualität der Tiefenkarte, was dazu führen kann, dass das Modell in einen suboptimalen Zustand gerät. In diesem Artikel behandeln wir beide Probleme in einem ganzheitlichen Ansatz synergistisch und stellen ein neuartiges Netzwerk namens DPANet vor, das die Potenziale der Tiefenkarte explizit modelliert und die Komplementarität zwischen den Modalitäten effektiv integriert. Durch die Einführung eines Tiefenpotenzial-Wahrnehmungsmechanismus kann das Netzwerk die potenzielle Relevanz der Tiefeninformationen lernbasiert erfassen und den Fusionsprozess zweier Modalitäten so steuern, dass Kontaminationen vermieden werden. Der gated multi-modality attention-Modul im Fusionsprozess nutzt ein Aufmerksamkeitsmechanismus mit einem Gate-Controller, um langreichweitige Abhängigkeiten aus einer cross-modalen Perspektive zu erfassen. Experimentelle Ergebnisse, die mit 15 state-of-the-art-Methoden auf insgesamt 8 Datensätzen verglichen wurden, belegen die Wirksamkeit des vorgeschlagenen Ansatzes sowohl quantitativ als auch qualitativ.