HyperAIHyperAI

Command Palette

Search for a command to run...

Visual Saliency Transformer

Nian Liu Ni Zhang Kaiyuan Wan Ling Shao Junwei Han

Zusammenfassung

Bestehende state-of-the-art-Methoden zur Aufmerksamkeitsdetektion (saliency detection) beruhen stark auf CNN-basierten Architekturen. Alternativ betrachten wir diese Aufgabe nun aus einer convolutionsfreien sequenz-zu-Sequenz-Perspektive und prognostizieren Aufmerksamkeit, indem wir langreichweitige Abhängigkeiten modellieren, die durch Faltung nicht erfasst werden können. Konkret entwickeln wir ein neuartiges, einheitliches Modell auf Basis eines reinen Transformers, den sogenannten Visual Saliency Transformer (VST), für die Detektion auffälliger Objekte sowohl in RGB- als auch in RGB-D-Bildern (RGB-D SOD). Das Modell verarbeitet Bildpatches als Eingaben und nutzt den Transformer, um globale Kontextinformationen zwischen den Bildpatches zu propagieren. Im Gegensatz zu herkömmlichen Architekturen in Vision Transformers (ViT) setzen wir eine mehrstufige Token-Fusion ein und stellen eine neue Token-Up-Scaling-Methode innerhalb des Transformer-Rahmens vor, um hochauflösende Detektionsergebnisse zu erzielen. Zudem entwickeln wir einen tokenbasierten Multi-Task-Decoder, der gleichzeitig Aufmerksamkeits- und Randdetektion durch Einführung von aufgabebezogenen Tokens und einer neuartigen Patch-Task-Attention-Mechanismus durchführt. Experimentelle Ergebnisse zeigen, dass unser Modell sowohl auf RGB- als auch auf RGB-D-SOD-Benchmark-Datensätzen bestehende Methoden übertrifft. Vor allem zeigt unser gesamtes Framework nicht nur eine neue Perspektive für den Bereich der SOD, sondern auch ein neues Paradigma für transformerbasierte Dichteprediktionsmodelle. Der Quellcode ist unter https://github.com/nnizhang/VST verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Visual Saliency Transformer | Paper | HyperAI