Command Palette
Search for a command to run...
Cross-Modal Weighting Network für RGB-D auffällige Objekterkennung
Cross-Modal Weighting Network für RGB-D auffällige Objekterkennung
Gongyang Li Zhi Liu Linwei Ye Yang Wang Haibin Ling
Zusammenfassung
Tiefenkarten enthalten geometrische Hinweise, die bei der Erkennung auffälliger Objekte (Salient Object Detection, SOD) unterstützen. In diesem Artikel stellen wir eine neuartige Cross-Modal-Weighting-(CMW)-Strategie vor, die umfassende Wechselwirkungen zwischen RGB- und Tiefenkanälen für die RGB-D-SOD fördert. Konkret werden drei RGB-Tiefen-Interaktionsmodule entwickelt, die als CMW-L, CMW-M und CMW-H bezeichnet werden und jeweils die Fusion von tiefen-, mittel- und hochleveligen informationsbasierten Kreuzmodalen Informationen behandeln. Diese Module nutzen die Depth-to-RGB-Weighting-(DW)- und RGB-to-RGB-Weighting-(RW)-Mechanismen, um reichhaltige kreuzmodale und kreuzskalige Interaktionen zwischen Merkmalsschichten zu ermöglichen, die von verschiedenen Netzwerkblöcken generiert wurden. Um die effektive Trainierung des vorgeschlagenen Cross-Modal-Weighting-Netzwerks (CMWNet) zu gewährleisten, entwerfen wir eine zusammengesetzte Verlustfunktion, die die Fehler zwischen den Zwischenprädiktionen und den Ground-Truth-Werten über verschiedene Skalen hinweg zusammenfasst. Durch die gemeinsame Wirkung all dieser innovativen Komponenten fusioniert CMWNet effektiv Informationen aus RGB- und Tiefenkanälen und untersucht gleichzeitig die Objektlokalisierung sowie Details auf unterschiedlichen Skalen. Ausführliche Evaluierungen zeigen, dass CMWNet auf sieben etablierten Benchmarks konsequent 15 aktuelle state-of-the-art-Methoden für RGB-D-SOD übertrifft.