Siamese-Netzwerk für die Detektion von auffälligen Objekten in RGB-D-Bildern und darüber hinaus

Bestehende Modelle zur Erkennung von auffälligen Objekten in RGB-D-Bildern (SOD) behandeln in der Regel die RGB- und Tiefeninformation als unabhängige Daten und entwerfen getrennte Netzwerke für die Merkmalsextraktion aus jeder Modalität. Solche Ansätze können leicht durch eine begrenzte Menge an Trainingsdaten oder eine übermäßig ausgeklügelte Trainingsprozedur eingeschränkt werden. Inspiriert durch die Beobachtung, dass die RGB- und Tiefenmodalitäten tatsächlich bestimmte Gemeinsamkeiten bei der Unterscheidung von auffälligen Objekten aufweisen, wurde eine neuartige Architektur für gemeinsames Lernen und dicht kooperativen Fusion (JL-DCF) entwickelt. Diese Architektur lernt aus den RGB- und Tiefeneingaben durch ein gemeinsames Netzwerkbackbone, bekannt als Siameses Netzwerk.In dieser Arbeit schlagen wir zwei effektive Komponenten vor: gemeinsames Lernen (JL) und dicht kooperative Fusion (DCF). Das JL-Modul ermöglicht robustes Lernen von Salienzmerkmalen, indem es die Modalitätsübergreifende Gemeinsamkeit durch ein Siameses Netzwerk nutzt. Das DCF-Modul hingegen wird eingeführt, um ergänzende Merkmale zu entdecken. Umfassende Experimente mit fünf gängigen Metriken zeigen, dass das entwickelte Framework einen robusten RGB-D-Saliendetektor mit guter Generalisierungskraft liefert. Als Ergebnis verbessert JL-DCF den Stand der Technik in sieben anspruchsvollen Datensätzen im Durchschnitt um etwa 2,0 % (maximales F-Maß).Darüber hinaus zeigen wir, dass JL-DCF problemlos auf andere verwandte multimodale Erkennungsaufgaben angewendet werden kann, darunter RGB-T (thermische Infrarot) SOD und Video-SOD, wobei vergleichbare oder sogar bessere Leistungen gegenüber den besten Methoden erzielt werden. Wir stellen auch einen Zusammenhang zwischen JL-DCF und dem Bereich der semantischen Segmentierung von RGB-D-Bildern her und demonstrieren seine Fähigkeit, mehrere semantische Segmentierungsmodelle bei der Aufgabe der RGB-D-Salienerkennung zu übertreffen. Diese Fakten bestätigen weiterhin, dass das vorgeschlagene Framework potentielle Lösungen für verschiedene Anwendungen bieten könnte und tieferes Verständnis für die Aufgabe der modalitätsübergreifenden Ergänzung bietet.