HyperAIHyperAI
il y a 11 jours

Reconnaissance de situation : étiquetage sémantique des rôles visuels pour la compréhension d’image

{Luke Zettlemoyer, Ali Farhadi, Mark Yatskar}
Reconnaissance de situation : étiquetage sémantique des rôles visuels pour la compréhension d’image
Résumé

Cet article présente la reconnaissance de situation, un problème consistant à produire un résumé concis de la situation décrite par une image, incluant : (1) l’activité principale (par exemple, couper), (2) les participants à l’activité — acteurs, objets, substances et lieux (par exemple, homme, ciseaux, mouton, laine, champ) — et surtout (3) les rôles joués par ces participants dans l’activité (par exemple, l’homme est en train de couper, les ciseaux sont son outil, la laine est coupée du mouton, et l’opération se déroule dans un champ). Nous utilisons FrameNet, un lexique linguistique basé sur les verbes et les rôles, afin de définir un large espace de situations possibles, et nous avons collecté un jeu de données à grande échelle comprenant plus de 500 activités, 1 700 rôles, 11 000 objets, 125 000 images et 200 000 situations uniques. Nous introduisons également des modèles de prédiction structurée comme références, et démontrons que, dans les images centrées sur les activités, la prédiction guidée par la situation des objets et des activités surpasse significativement la reconnaissance indépendante des objets et des activités.

Reconnaissance de situation : étiquetage sémantique des rôles visuels pour la compréhension d’image | Articles de recherche récents | HyperAI