ViTGaze: Blickverfolgung mit Interaktionsmerkmalen in Visionstransformatoren

Das Verfolgen von Blickrichtungen (Gaze Following) strebt danach, menschliche Interaktionen mit der Umgebung durch die Vorhersage des Fokuspunkts des Blicks zu interpretieren. Bestehende Ansätze verwenden häufig ein zweistufiges Framework, bei dem in der ersten Phase multimodale Informationen für die Vorhersage des Blickziels extrahiert werden. Die Effektivität dieser Methoden hängt stark von der Genauigkeit der vorherigen Modalaufnahme ab. Andere Ansätze nutzen ein single-modales Verfahren mit komplexen Decodern, was den Rechenaufwand des Netzwerks erhöht. Inspiriert durch den bemerkenswerten Erfolg vortrainierter rein visueller Transformer (ViTs), stellen wir einen neuen single-modalen Ansatz für das Verfolgen von Blickrichtungen vor, den wir ViTGaze nennen. Im Gegensatz zu früheren Methoden entwickeln wir ein neues Framework, das sich hauptsächlich auf leistungsfähige Encoder stützt (Anteil der Decoder-Parameter weniger als 1%). Unser zentrales Erkenntnis ist, dass die Interaktionen zwischen Tokens innerhalb der Selbst-Attention auf Interaktionen zwischen Menschen und Szenen übertragen werden können. Unter Nutzung dieser Annahme formulieren wir ein Framework, das aus einem 4D-Interaktionsencoder und einem 2D-raumlichen Leitmodul besteht, um Informationen über die Interaktion zwischen Mensch und Szene aus Selbst-Attention-Karten zu extrahieren. Darüber hinaus zeigt unsere Untersuchung, dass ViT mit selbstüberwachtem Vortraining eine verbesserte Fähigkeit zur Extraktion von Korrelationsinformationen besitzt. Zahlreiche Experimente wurden durchgeführt, um die Leistungsfähigkeit der vorgeschlagenen Methode zu demonstrieren. Unsere Methode erzielt unter allen single-modalen Ansätzen eine Stand-of-the-Art-Leistung (SOTA) (Verbesserung um 3,4% im Flächenunterkurvenwert (AUC), Verbesserung um 5,1% im Durchschnittswert der Präzision (AP)) und erreicht sehr vergleichbare Ergebnisse gegenüber multimodalen Methoden mit 59% weniger Parametern.