HyperAIHyperAI
vor 17 Tagen

MDS-ViTNet: Verbesserung der Aufmerksamkeitsvorhersage bei Eye-Tracking mit Vision Transformer

Polezhaev Ignat, Goncharenko Igor, Iurina Natalya
MDS-ViTNet: Verbesserung der Aufmerksamkeitsvorhersage bei Eye-Tracking mit Vision Transformer
Abstract

In diesem Artikel präsentieren wir eine neuartige Methodik, die wir MDS-ViTNet (Multi Decoder Saliency by Vision Transformer Network) nennen, zur Verbesserung der Vorhersage visueller Aufmerksamkeit oder von Blickverfolgung. Dieser Ansatz besitzt ein erhevolles Potenzial für vielfältige Anwendungsbereiche wie Marketing, Medizin, Robotik und Einzelhandel. Wir schlagen eine Netzarchitektur vor, die den Vision Transformer nutzt und über die herkömmliche ImageNet-Backbone hinausgeht. Das Framework verwendet eine Encoder-Decoder-Struktur, wobei der Encoder einen Swin-Transformer einsetzt, um die wichtigsten Merkmale effizient zu kodieren. Dabei wird ein Transfer-Learning-Ansatz angewendet, bei dem Schichten des Vision Transformers durch den Encoder-Transformer transformiert und nahtlos in einen CNN-Decoder integriert werden. Diese Methodik gewährleistet ein minimales Informationsverlust gegenüber dem ursprünglichen Eingabebild. Der Decoder nutzt eine Multi-Decoder-Technik mit zwei getrennten Dekodern, um zwei unterschiedliche Aufmerksamkeitskarten zu generieren, die anschließend über ein zusätzliches CNN-Modell zu einer einzigen Ausgabe kombiniert werden. Unser trainiertes Modell MDS-ViTNet erzielt state-of-the-art-Ergebnisse auf mehreren Benchmark-Datensätzen. Um weitere Zusammenarbeit zu fördern, planen wir, unseren Code, unsere Modelle und Datensätze der Öffentlichkeit zugänglich zu machen.

MDS-ViTNet: Verbesserung der Aufmerksamkeitsvorhersage bei Eye-Tracking mit Vision Transformer | Neueste Forschungsarbeiten | HyperAI