HyperAIHyperAI
vor 3 Monaten

RGB-D-Salient-Object-Detektion mittels 3D-Convolutional Neural Networks

Qian Chen, Ze Liu, Yi Zhang, Keren Fu, Qijun Zhao, Hongwei Du
RGB-D-Salient-Object-Detektion mittels 3D-Convolutional Neural Networks
Abstract

Die RGB-D-Salient-Object-Detection (SOD) hat in letzter Zeit zunehmend Forschungsinteresse hervorgerufen, und es sind zahlreiche tiefen Lernmethoden auf Basis von Encoder-Decoder-Architekturen entstanden. Allerdings führen die meisten bestehenden RGB-D-SOD-Modelle die Merkmalsfusion entweder im Encoder- oder im Decoder-Stadium durch, was die ausreichende Kreuzmodalfusion kaum gewährleistet. In diesem Artikel unternehmen wir erstmals den Versuch, die RGB-D-SOD mittels 3D-Faltungsneuronalen Netzen anzugehen. Das vorgeschlagene Modell, namens RD3D, zielt darauf ab, eine Vorfusion im Encoder-Stadium und eine tiefgehende Fusion im Decoder-Stadium durchzuführen, um die vollständige Integration der RGB- und Tiefenströme effektiv zu fördern. Konkret führt RD3D zunächst eine Vorfusion zwischen den RGB- und Tiefenmodality mittels eines erweiterten 3D-Encoders durch und ermöglicht anschließend eine detaillierte Merkmalsfusion durch die Gestaltung eines 3D-Decoder mit reichhaltigen Rückprojektionspfaden (RBPP), um die umfassende Aggregationsfähigkeit von 3D-Faltungen auszunutzen. Durch diese fortschreitende Fusionsstrategie, die sowohl den Encoder als auch den Decoder einbezieht, kann ein effektiver und gründlicher Austausch zwischen den beiden Modalitäten genutzt werden, was die Erkennungsgenauigkeit verbessert. Umfangreiche Experimente auf sechs weit verbreiteten Benchmark-Datensätzen zeigen, dass RD3D gegenüber 14 state-of-the-art-Methoden der RGB-D-SOD in Bezug auf vier zentrale Bewertungsmaße überzeugt. Der Quellcode wird öffentlich verfügbar gemacht: https://github.com/PPOLYpubki/RD3D.