HyperAIHyperAI
vor 17 Tagen

TranSalNet: Hin zu einer wahrnehmungsrelevanten Vorhersage visueller Aufmerksamkeit

Jianxun Lou, Hanhe Lin, David Marshall, Dietmar Saupe, Hantao Liu
TranSalNet: Hin zu einer wahrnehmungsrelevanten Vorhersage visueller Aufmerksamkeit
Abstract

Vorhersage visueller Saliency mithilfe von Transformers – Convolutional Neural Networks (CNNs) haben die computergestützte Modellierung zur Saliency-Vorhersage erheblich vorangetrieben. Dennoch bleibt die präzise Nachbildung der Mechanismen visueller Aufmerksamkeit im menschlichen Cortex eine akademische Herausforderung. Es ist entscheidend, Eigenschaften des menschlichen Sehens in die Architektur von CNNs zu integrieren, um eine perceptuell relevantere Saliency-Vorhersage zu ermöglichen. Aufgrund der inhärenten induktiven Vorurteile von CNN-Architekturen fehlt es an ausreichender Kapazität zur Langstrecken-Contextualisierung. Dies behindert CNN-basierte Saliency-Modelle darin, Eigenschaften zu erfassen, die das menschliche Beobachtungsverhalten nachahmen. Transformers haben großes Potenzial gezeigt, Langstreckeninformationen durch Nutzung des Self-Attention-Mechanismus zu kodieren. In diesem Paper stellen wir ein neuartiges Saliency-Modell vor, das Transformer-Komponenten in CNNs integriert, um langstreckige kontextuelle visuelle Informationen zu erfassen. Experimentelle Ergebnisse zeigen, dass Transformers einen zusätzlichen Wert für die Saliency-Vorhersage liefern und deren perceptuelle Relevanz in der Leistung verbessern. Unser vorgeschlagenes Saliency-Modell, TranSalNet, erreicht auf öffentlichen Benchmarks und Wettbewerben für Saliency-Modelle überlegene Ergebnisse.Der Quellcode unseres vorgeschlagenen Saliency-Modells TranSalNet ist verfügbar unter: https://github.com/LJOVO/TranSalNet

TranSalNet: Hin zu einer wahrnehmungsrelevanten Vorhersage visueller Aufmerksamkeit | Neueste Forschungsarbeiten | HyperAI