HyperAIHyperAI
vor 2 Monaten

Kontrastive Sprach-Bild-Vortrainingsmodelle sind Nullschuss-Prädiktoren für menschliche Fixationssequenzen

Dario Zanca; Andrea Zugarini; Simon Dietz; Thomas R. Altstidl; Mark A. Turban Ndjeuha; Leo Schwinn; Bjoern Eskofier
Kontrastive Sprach-Bild-Vortrainingsmodelle sind Nullschuss-Prädiktoren für menschliche Fixationssequenzen
Abstract

Das Verständnis der Mechanismen, die hinter der menschlichen Aufmerksamkeit stehen, ist eine grundlegende Herausforderung sowohl für die Visuelle Wissenschaft als auch für die Künstliche Intelligenz. Obwohl zahlreiche computergestützte Modelle des freien Betrachtens vorgeschlagen wurden, ist weniger bekannt über die Mechanismen, die das bildgesteuerte Erkundungsverhalten bei Aufgaben beeinflussen. Um diese Lücke zu schließen, stellen wir CapMIT1003 vor, eine Datenbank von Bildunterschriften und klickabhängigen Bilderkundungen, die während der Erstellung von Bildunterschriften gesammelt wurden. CapMIT1003 basiert auf den gleichen Reizmaterialien wie der bekannte MIT1003-Referenzdatensatz, für den bereits Augenverfolgungsdaten unter Bedingungen des freien Betrachtens vorliegen. Dies bietet eine vielversprechende Möglichkeit, die menschliche Aufmerksamkeit gleichzeitig bei beiden Arten von Aufgaben zu untersuchen. Wir machen diesen Datensatz öffentlich zugänglich, um zukünftige Forschung in diesem Bereich zu fördern.Darüber hinaus führen wir NevaClip ein, eine neuartige Methode zur Vorhersage visueller Scanpaths im Zero-Shot-Szenario. NevaClip kombiniert kontrastbasierte Sprach-Bild-Vorverarbeitungsmodelle (CLIP) mit biologisch inspirierten neuronalen visuellen Aufmerksamkeitsalgorithmen (NeVA). NevaClip simuliert menschliche Scanpaths, indem es die Darstellung des fokussierten visuellen Reizes mit der Darstellung der dazugehörigen Bildunterschrift ausrichtet und durch gradientengesteuerte visuelle Erkundung Scanpaths generiert. Unsere experimentellen Ergebnisse zeigen, dass NevaClip bestehende unüberwachte computergestützte Modelle der menschlichen visuellen Aufmerksamkeit in Bezug auf die Plausibilität von Scanpaths sowohl bei Captioning-Aufgaben als auch beim freien Betrachten übertrifft. Zudem weisen wir nach, dass das Konditionieren von NevaClip mit falschen oder irreführenden Bildunterschriften zu zufälligem Verhalten führt, was den erheblichen Einfluss von Captioning-Richtlinien im Entscheidungsprozess hervorhebt. Diese Ergebnisse tragen zu einem besseren Verständnis der Mechanismen bei, die die menschliche Aufmerksamkeit steuern, und bahnen den Weg für fortschrittlichere computergestützte Ansätze zur Vorhersage von Scanpaths, die direkte top-down-Richtlinien von nachgelagerten Aufgaben integrieren können.

Kontrastive Sprach-Bild-Vortrainingsmodelle sind Nullschuss-Prädiktoren für menschliche Fixationssequenzen | Neueste Forschungsarbeiten | HyperAI