HyperAIHyperAI
vor 11 Tagen

Visual Saliency Transformer

Nian Liu, Ni Zhang, Kaiyuan Wan, Ling Shao, Junwei Han
Visual Saliency Transformer
Abstract

Bestehende state-of-the-art-Methoden zur Aufmerksamkeitsdetektion (saliency detection) beruhen stark auf CNN-basierten Architekturen. Alternativ betrachten wir diese Aufgabe nun aus einer convolutionsfreien sequenz-zu-Sequenz-Perspektive und prognostizieren Aufmerksamkeit, indem wir langreichweitige Abhängigkeiten modellieren, die durch Faltung nicht erfasst werden können. Konkret entwickeln wir ein neuartiges, einheitliches Modell auf Basis eines reinen Transformers, den sogenannten Visual Saliency Transformer (VST), für die Detektion auffälliger Objekte sowohl in RGB- als auch in RGB-D-Bildern (RGB-D SOD). Das Modell verarbeitet Bildpatches als Eingaben und nutzt den Transformer, um globale Kontextinformationen zwischen den Bildpatches zu propagieren. Im Gegensatz zu herkömmlichen Architekturen in Vision Transformers (ViT) setzen wir eine mehrstufige Token-Fusion ein und stellen eine neue Token-Up-Scaling-Methode innerhalb des Transformer-Rahmens vor, um hochauflösende Detektionsergebnisse zu erzielen. Zudem entwickeln wir einen tokenbasierten Multi-Task-Decoder, der gleichzeitig Aufmerksamkeits- und Randdetektion durch Einführung von aufgabebezogenen Tokens und einer neuartigen Patch-Task-Attention-Mechanismus durchführt. Experimentelle Ergebnisse zeigen, dass unser Modell sowohl auf RGB- als auch auf RGB-D-SOD-Benchmark-Datensätzen bestehende Methoden übertrifft. Vor allem zeigt unser gesamtes Framework nicht nur eine neue Perspektive für den Bereich der SOD, sondern auch ein neues Paradigma für transformerbasierte Dichteprediktionsmodelle. Der Quellcode ist unter https://github.com/nnizhang/VST verfügbar.

Visual Saliency Transformer | Neueste Forschungsarbeiten | HyperAI