HyperAIHyperAI

Command Palette

Search for a command to run...

Siamese-Netzwerk für die Detektion von auffälligen Objekten in RGB-D-Bildern und darüber hinaus

Keren Fu Deng-Ping Fan* Ge-Peng Ji Qijun Zhao Jianbing Shen Ce Zhu

Zusammenfassung

Bestehende Modelle zur Erkennung von auffälligen Objekten in RGB-D-Bildern (SOD) behandeln in der Regel die RGB- und Tiefeninformation als unabhängige Daten und entwerfen getrennte Netzwerke für die Merkmalsextraktion aus jeder Modalität. Solche Ansätze können leicht durch eine begrenzte Menge an Trainingsdaten oder eine übermäßig ausgeklügelte Trainingsprozedur eingeschränkt werden. Inspiriert durch die Beobachtung, dass die RGB- und Tiefenmodalitäten tatsächlich bestimmte Gemeinsamkeiten bei der Unterscheidung von auffälligen Objekten aufweisen, wurde eine neuartige Architektur für gemeinsames Lernen und dicht kooperativen Fusion (JL-DCF) entwickelt. Diese Architektur lernt aus den RGB- und Tiefeneingaben durch ein gemeinsames Netzwerkbackbone, bekannt als Siameses Netzwerk.In dieser Arbeit schlagen wir zwei effektive Komponenten vor: gemeinsames Lernen (JL) und dicht kooperative Fusion (DCF). Das JL-Modul ermöglicht robustes Lernen von Salienzmerkmalen, indem es die Modalitätsübergreifende Gemeinsamkeit durch ein Siameses Netzwerk nutzt. Das DCF-Modul hingegen wird eingeführt, um ergänzende Merkmale zu entdecken. Umfassende Experimente mit fünf gängigen Metriken zeigen, dass das entwickelte Framework einen robusten RGB-D-Saliendetektor mit guter Generalisierungskraft liefert. Als Ergebnis verbessert JL-DCF den Stand der Technik in sieben anspruchsvollen Datensätzen im Durchschnitt um etwa 2,0 % (maximales F-Maß).Darüber hinaus zeigen wir, dass JL-DCF problemlos auf andere verwandte multimodale Erkennungsaufgaben angewendet werden kann, darunter RGB-T (thermische Infrarot) SOD und Video-SOD, wobei vergleichbare oder sogar bessere Leistungen gegenüber den besten Methoden erzielt werden. Wir stellen auch einen Zusammenhang zwischen JL-DCF und dem Bereich der semantischen Segmentierung von RGB-D-Bildern her und demonstrieren seine Fähigkeit, mehrere semantische Segmentierungsmodelle bei der Aufgabe der RGB-D-Salienerkennung zu übertreffen. Diese Fakten bestätigen weiterhin, dass das vorgeschlagene Framework potentielle Lösungen für verschiedene Anwendungen bieten könnte und tieferes Verständnis für die Aufgabe der modalitätsübergreifenden Ergänzung bietet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp