HyperAIHyperAI
il y a 2 mois

Les modèles pré-entraînés par comparaison de langage et d'image sont des prédicteurs de scanpaths humains à zéro-shot.

Dario Zanca; Andrea Zugarini; Simon Dietz; Thomas R. Altstidl; Mark A. Turban Ndjeuha; Leo Schwinn; Bjoern Eskofier
Les modèles pré-entraînés par comparaison de langage et d'image sont des prédicteurs de scanpaths humains à zéro-shot.
Résumé

Comprendre les mécanismes sous-jacents à l'attention humaine est un défi fondamental pour la science de la vision et l'intelligence artificielle. Bien que de nombreux modèles computationnels d'exploration libre aient été proposés, moins d'informations sont disponibles sur les mécanismes régissant l'exploration d'images guidée par des tâches. Pour combler cette lacune, nous présentons CapMIT1003, une base de données comprenant des légendes et des explorations d'images conditionnées aux clics collectées lors de tâches de légendage. CapMIT1003 repose sur les mêmes stimuli que le célèbre benchmark MIT1003, pour lequel des données de suivi oculaire sous conditions d'exploration libre sont disponibles, offrant ainsi une opportunité prometteuse pour étudier simultanément l'attention humaine dans les deux types de tâches. Nous mettons ce jeu de données à disposition du public afin de faciliter les recherches futures dans ce domaine.De plus, nous introduisons NevaClip, une nouvelle méthode zero-shot pour prédire les parcours visuels qui combine des modèles pré-entraînés par contraste entre langage et images (CLIP) avec des algorithmes d'attention visuelle neuronale inspirés par la biologie (NeVA). NevaClip simule les parcours visuels en alignant la représentation du stimulus visuel foveal et celle de la légende associée, utilisant une exploration visuelle guidée par gradient pour générer ces parcours. Nos résultats expérimentaux montrent que NevaClip surpassent les modèles computationnels non supervisés existants de l'attention visuelle humaine en termes de plausibilité des parcours visuels, tant pour les tâches de légendage que pour celles d'exploration libre. De plus, nous démontrons que conditionner NevaClip avec des légendes incorrectes ou trompeuses conduit à un comportement aléatoire, soulignant l'influence importante des légendes dans le processus décisionnel. Ces découvertes contribuent à une meilleure compréhension des mécanismes qui guident l'attention humaine et ouvrent la voie à des approches computationnelles plus sophistiquées pour la prédiction des parcours visuels capables d'intégrer une guidance top-down directe provenant des tâches downstream.

Les modèles pré-entraînés par comparaison de langage et d'image sont des prédicteurs de scanpaths humains à zéro-shot. | Articles de recherche récents | HyperAI