Cross-Modal Weighting Network für RGB-D auffällige Objekterkennung

Tiefenkarten enthalten geometrische Hinweise, die bei der Erkennung auffälliger Objekte (Salient Object Detection, SOD) unterstützen. In diesem Artikel stellen wir eine neuartige Cross-Modal-Weighting-(CMW)-Strategie vor, die umfassende Wechselwirkungen zwischen RGB- und Tiefenkanälen für die RGB-D-SOD fördert. Konkret werden drei RGB-Tiefen-Interaktionsmodule entwickelt, die als CMW-L, CMW-M und CMW-H bezeichnet werden und jeweils die Fusion von tiefen-, mittel- und hochleveligen informationsbasierten Kreuzmodalen Informationen behandeln. Diese Module nutzen die Depth-to-RGB-Weighting-(DW)- und RGB-to-RGB-Weighting-(RW)-Mechanismen, um reichhaltige kreuzmodale und kreuzskalige Interaktionen zwischen Merkmalsschichten zu ermöglichen, die von verschiedenen Netzwerkblöcken generiert wurden. Um die effektive Trainierung des vorgeschlagenen Cross-Modal-Weighting-Netzwerks (CMWNet) zu gewährleisten, entwerfen wir eine zusammengesetzte Verlustfunktion, die die Fehler zwischen den Zwischenprädiktionen und den Ground-Truth-Werten über verschiedene Skalen hinweg zusammenfasst. Durch die gemeinsame Wirkung all dieser innovativen Komponenten fusioniert CMWNet effektiv Informationen aus RGB- und Tiefenkanälen und untersucht gleichzeitig die Objektlokalisierung sowie Details auf unterschiedlichen Skalen. Ausführliche Evaluierungen zeigen, dass CMWNet auf sieben etablierten Benchmarks konsequent 15 aktuelle state-of-the-art-Methoden für RGB-D-SOD übertrifft.