Genauige RGB-D auffällige Objektdetektion durch kooperatives Lernen

Durch die Nutzung räumlicher Hinweise, die in Tiefenbildern enthalten sind, zeigten jüngste Fortschritte im Bereich der RGB-D-Salienzdetektion beeindruckende Leistungsfähigkeit in bestimmten anspruchsvollen Szenarien. Dennoch bestehen zwei wesentliche Einschränkungen. Einerseits können die Pooling- und Upsampling-Operationen in Fully Convolutional Networks (FCNs) zu verschwommenen Objekträndern führen. Andererseits verursacht die Verwendung eines zusätzlichen Tiefennetzes zur Extraktion von Tiefenmerkmalen hohe Rechen- und Speicherkosten. Zudem beschränkt die Abhängigkeit von Tiefeneingaben während der Testphase die praktischen Anwendbarkeiten der derzeitigen RGB-D-Modelle. In diesem Artikel stellen wir einen neuartigen kooperativen Lernrahmen vor, bei dem Kanten, Tiefeninformation und Salienz effizienter genutzt werden, wodurch diese Probleme geschickt gelöst werden. Die explizit extrahierten Kanteninformationen werden gemeinsam mit der Salienz genutzt, um die Aufmerksamkeit stärker auf auffällige Regionen und Objektränder zu lenken. Die Integration von Tiefen- und Salienzlernprozessen in den hochstufigen Merkmalslernprozess erfolgt innovativ auf wechselseitig vorteilhaftem Wege. Diese Strategie ermöglicht es dem Netzwerk, auf zusätzliche Tiefennetze und Tiefeneingaben bei der Inferenz verzichten zu können. Dadurch ist unser Modell leichter, schneller und vielseitiger einsetzbar. Experimentelle Ergebnisse auf sieben Benchmark-Datensätzen belegen seine überlegene Leistung.