HyperAIHyperAI
vor 13 Tagen

RGB-D-Saliency-Detektion mittels kaskadierter Minimierung der gegenseitigen Information

Jing Zhang, Deng-Ping Fan, Yuchao Dai, Xin Yu, Yiran Zhong, Nick Barnes, Ling Shao
RGB-D-Saliency-Detektion mittels kaskadierter Minimierung der gegenseitigen Information
Abstract

Bestehende RGB-D-Saliency-Erkennungsmodelle fördern die effektive multimodale Lernung zwischen RGB-Bildern und Tiefendaten nicht explizit. In diesem Paper stellen wir einen neuartigen mehrstufigen kaskadenförmigen Lernrahmen vor, der durch Minimierung der gegenseitigen Information „explizit“ die multimodale Information zwischen RGB-Bildern und Tiefendaten modelliert. Konkret projizieren wir zunächst die Merkmale jeder Modality in einen niedrigdimensionalen Merkmalsvektor und nutzen die Minimierung der gegenseitigen Information als Regularisierung, um die Redundanz zwischen den Erscheinungsmerkmalen aus dem RGB-Bild und den geometrischen Merkmalen aus der Tiefendaten zu verringern. Anschließend führen wir mehrstufige kaskadenförmige Lernprozesse durch, wobei die Regularisierung durch Minimierung der gegenseitigen Information in jeder Stufe des Netzwerks angewandt wird. Umfassende Experimente auf etablierten RGB-D-Saliency-Datensätzen belegen die Wirksamkeit unseres Rahmens. Darüber hinaus tragen wir zur Weiterentwicklung dieses Forschungsfelds bei, indem wir den größten bisher veröffentlichten Datensatz bereitstellen – dieser ist siebenmal größer als NJU2K – und 15.625 hochwertige Bildpaare mit polygonalen, skizzenhaften, objekt-, instanz- und rangbasierten Annotationen enthält. Auf Basis dieser reichhaltigen Annotationen erstellen wir zusätzlich vier neue Benchmark-Aufgaben mit starken Baseline-Modellen und beobachten einige interessante Phänomene, die zukünftige Modellentwürfe anregen können. Der Quellcode und der Datensatz sind unter „https://github.com/JingZhang617/cascaded_rgbd_sod“ verfügbar.