HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance de situation : étiquetage sémantique des rôles visuels pour la compréhension d’image

Luke Zettlemoyer Ali Farhadi Mark Yatskar

Résumé

Cet article présente la reconnaissance de situation, un problème consistant à produire un résumé concis de la situation décrite par une image, incluant : (1) l’activité principale (par exemple, couper), (2) les participants à l’activité — acteurs, objets, substances et lieux (par exemple, homme, ciseaux, mouton, laine, champ) — et surtout (3) les rôles joués par ces participants dans l’activité (par exemple, l’homme est en train de couper, les ciseaux sont son outil, la laine est coupée du mouton, et l’opération se déroule dans un champ). Nous utilisons FrameNet, un lexique linguistique basé sur les verbes et les rôles, afin de définir un large espace de situations possibles, et nous avons collecté un jeu de données à grande échelle comprenant plus de 500 activités, 1 700 rôles, 11 000 objets, 125 000 images et 200 000 situations uniques. Nous introduisons également des modèles de prédiction structurée comme références, et démontrons que, dans les images centrées sur les activités, la prédiction guidée par la situation des objets et des activités surpasse significativement la reconnaissance indépendante des objets et des activités.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Reconnaissance de situation : étiquetage sémantique des rôles visuels pour la compréhension d’image | Articles | HyperAI