JL-DCF: Joint Learning and Densely-Cooperative Fusion Framework für RGB-D auffällige Objektdetektion

Diese Arbeit stellt eine neuartige gemeinsame Lern- und dicht-kooperative Fusion (JL-DCF)-Architektur für die RGB-D-Salient-Object-Detection vor. Bestehende Modelle behandeln RGB- und Tiefeninformation in der Regel unabhängig voneinander und entwerfen getrennte Netzwerke zur Merkmalsextraktion aus beiden Modalitäten. Solche Ansätze sind leicht durch eine begrenzte Menge an Trainingsdaten oder eine übermäßige Abhängigkeit von komplex gestalteten Trainingsprozessen eingeschränkt. Im Gegensatz dazu lernt unsere JL-DCF-Architektur aus beiden Eingabemodalitäten RGB und Tiefen mithilfe eines Siamese-Netzwerks. Dazu werden zwei effektive Komponenten vorgeschlagen: gemeinsames Lernen (JL) und dicht-kooperative Fusion (DCF). Der JL-Modul ermöglicht eine robuste Lernung von Salienzmerkmalen, während der DCF-Modul zur Entdeckung komplementärer Merkmale beiträgt. Umfassende Experimente anhand vier gängiger Metriken zeigen, dass das vorgeschlagene Framework einen robusten RGB-D-Salient-Object-Detektor mit guter Generalisierungsfähigkeit erzielt. Als Ergebnis verbessert JL-DCF den führenden D3Net-Modell im Top-1-Platzierungsdurchschnitt um durchschnittlich ~1,9 % (S-Maß) über sechs anspruchsvolle Datensätze hinweg. Dies belegt, dass der vorgeschlagene Ansatz eine vielversprechende Lösung für reale Anwendungen darstellt und tiefere Einblicke in die Aufgabe der multimodalen Komplementarität ermöglicht. Der Quellcode wird unter https://github.com/kerenfu/JLDCF/ verfügbar sein.