HyperAIHyperAI
il y a 2 mois

Reconnaissance de Situation Ancrée

Pratt, Sarah ; Yatskar, Mark ; Weihs, Luca ; Farhadi, Ali ; Kembhavi, Aniruddha
Résumé

Nous présentons la Reconnaissance de Situation Ancrée (RSA), une tâche qui nécessite la production de résumés sémantiques structurés d'images décrivant : l'activité principale, les entités impliquées dans cette activité avec leurs rôles (par exemple, agent, outil), et les encadrements par boîtes englobantes des entités. La RSA présente des défis techniques importants : identifier la salience sémantique, catégoriser et localiser un ensemble grand et diversifié d'entités, surmonter la rareté sémantique, et désambiguïser les rôles. De plus, contrairement à la génération de légendes, la RSA est facile à évaluer. Pour étudier cette nouvelle tâche, nous avons créé le jeu de données Situations With Groundings (SWiG) qui ajoute 278 336 encadrements par boîtes englobantes aux 11 538 classes d'entités du jeu de données IMSITU. Nous proposons un Localiseur de Situation Conjoints et constatons que prédire conjointement les situations et les encadrements avec une formation bout-à-bout dépasse largement une formation indépendante sur l'ensemble des métriques d'encadrement, avec des gains relatifs compris entre 8% et 32%. Enfin, nous présentons des résultats initiaux dans trois directions futures passionnantes rendues possibles par nos modèles : requêtage conditionnel, chaînage visuel, et recherche d'images ancrées sémantiquement. Le code et les données sont disponibles à l'adresse https://prior.allenai.org/projects/gsr.

Reconnaissance de Situation Ancrée | Articles de recherche récents | HyperAI