Command Palette
Search for a command to run...
PaStaNet : Vers un moteur de connaissance des activités humaines
PaStaNet : Vers un moteur de connaissance des activités humaines
Yong-Lu Li Liang Xu Xinpeng Liu Xijie Huang Yue Xu Shiyi Wang Hao-Shu Fang Ze Ma Mingyang Chen Cewu Lu
Résumé
Les méthodes existantes d’identification d’activités basées sur les images reposent principalement sur une approche de cartographie directe, c’est-à-dire de l’image vers les concepts d’activité, ce qui peut entraîner un plafonnement des performances en raison de l’écart important entre ces deux niveaux. À la lumière de ce défi, nous proposons une nouvelle voie : d’abord inférer les états des parties du corps humain, puis raisonner sur les activités à partir de sémantiques au niveau des parties. Les États des Parties du Corps Humain (PaSta) sont des jetons sémantiques d’actions à fort grain, par exemple « », qui peuvent être combinés pour décrire des activités et nous rapprocher ainsi d’un moteur de connaissance des activités humaines. Afin d’exploiter pleinement le potentiel de PaSta, nous avons construit une base de connaissances à grande échelle appelée PaStaNet, comprenant plus de 7 millions d’annotations PaSta. Deux modèles correspondants ont été proposés : premièrement, nous avons conçu un modèle nommé Activity2Vec pour extraire des caractéristiques PaSta, visant à fournir des représentations générales adaptées à diverses activités. Deuxièmement, nous avons mis en œuvre une méthode de raisonnement basée sur PaSta pour inférer les activités. Grâce à PaStaNet, notre méthode obtient des améliorations significatives : +6,4 et +13,9 mAP sur les ensembles complet et à un seul exemple (one-shot) de HICO dans un cadre d’apprentissage supervisé, et +3,2 et +4,2 mAP sur V-COCO et AVA basés sur des images dans un cadre d’apprentissage transféré. Le code et les données sont disponibles à l’adresse suivante : http://hake-mvig.cn/.