HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Asymmetrische Zwei-Stream-Architektur für präzise RGB-D-Aufmerksamkeitsdetektion

{Jie Liu Yongri Piao Miao Zhang Huchuan Lu Sun Xiao Fei Shuang Xu}

Asymmetrische Zwei-Stream-Architektur für präzise RGB-D-Aufmerksamkeitsdetektion

Abstract

Die meisten bestehenden Methoden zur RGB-D-Salienzdetektion nutzen symmetrische Zwei-Stream-Architekturen, um diskriminative RGB- und Tiefenrepräsentationen zu lernen. In Wirklichkeit wird jedoch ein weiteres, oft übersehener Unsicherheitsfaktor ignoriert: ob RGB- und Tiefendaten tatsächlich in dasselbe Netzwerk integriert werden müssen. In diesem Artikel schlagen wir eine asymmetrische Zwei-Stream-Architektur vor, die die inhärenten Unterschiede zwischen RGB- und Tiefendaten bei der Salienzdetektion berücksichtigt. Zunächst entwerfen wir ein Flow-Ladder-Modul (FLM) für den RGB-Stream, um sowohl globale als auch lokale Informationen umfassend zu extrahieren, während die Salienzdetails bewahrt werden. Dies wird durch die Konstruktion von vier Detail-Transfer-Zweigen erreicht, wobei jeder Zweig die Detailinformationen bewahrt und über eine evolutionäre Weise globale Ortsinformationen aus den Darstellungen anderer vertikal paralleler Zweige erhält. Zweitens stellen wir ein neuartiges Tiefen-Attention-Modul (DAM) vor, das sicherstellt, dass Tiefenmerkmale mit hoher diskriminativer Kraft in Bezug auf Position und räumliche Struktur effektiv genutzt werden, wenn sie mit RGB-Merkmale in anspruchsvollen Szenen kombiniert werden. Darüber hinaus können die Tiefenmerkmale über das vorgeschlagene DAM diskriminativ auf die RGB-Merkmale einwirken, um die genaue Lokalisierung salienter Objekte zu ermöglichen. Umfangreiche Experimente zeigen, dass unsere Methode gegenüber 13 state-of-the-art-Methoden für RGB-D-Detektion auf sieben Datensätzen überlegen abschneidet. Der Quellcode wird öffentlich zugänglich sein.

Benchmarks

BenchmarkMethodikMetriken
thermal-image-segmentation-on-rgb-t-glassATSA
MAE: 0.098

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Asymmetrische Zwei-Stream-Architektur für präzise RGB-D-Aufmerksamkeitsdetektion | Forschungsarbeiten | HyperAI