HyperAIHyperAI
il y a 13 jours

Graphonomie : Interprétation universelle d’images par raisonnement graphique et transfert

Liang Lin, Yiming Gao, Ke Gong, Meng Wang, Xiaodan Liang
Graphonomie : Interprétation universelle d’images par raisonnement graphique et transfert
Résumé

Les modèles d’analyse d’image hautement optimisés sont généralement étudiés dans un domaine spécifique, avec un ensemble prédéfini d’étiquettes sémantiques, et s’avèrent difficilement adaptables à d’autres scénarios (par exemple, lorsqu’elles impliquent des granularités d’étiquetage incompatibles) sans re-entraînement intensif. Apprendre un unique modèle universel d’analyse d’image en unifiant les annotations de labels provenant de différents domaines ou à différentes granularités constitue un enjeu fondamental, mais peu exploré. Ce défi soulève plusieurs défis d’apprentissage fondamentaux, tels que la découverte de structures sémantiques sous-jacentes entre différentes granularités de labels ou l’extraction de corrélations entre labels dans des tâches pertinentes. Pour relever ces défis, nous proposons un cadre d’apprentissage par raisonnement graphique et transfert, nommé « Graphonomy », qui intègre des connaissances humaines et une taxonomie des labels dans l’apprentissage des représentations graphiques intermédiaires, au-delà des seules convolutions locales. En particulier, Graphonomy apprend la cohérence sémantique globale et structurée à travers plusieurs domaines via un raisonnement graphique conscient des sémantiques et un transfert d’apprentissage, en imposant des bénéfices mutuels entre les tâches d’analyse d’image dans différents domaines (par exemple, différentes bases de données ou tâches corrélées). Le cadre Graphonomy comporte deux modules itératifs : un module de raisonnement intra-graphe et un module de transfert inter-graphe. Le premier extrait un graphe sémantique dans chaque domaine afin d’améliorer l’apprentissage des représentations de caractéristiques par propagation d’information à travers le graphe ; le second exploite les dépendances entre les graphes issus de différents domaines pour permettre un transfert bidirectionnel des connaissances. Nous appliquons Graphonomy à deux domaines de recherche liés mais distincts en compréhension d’image : l’analyse fine du corps humain (human parsing) et la segmentation panoptique. Nos résultats montrent que Graphonomy parvient à traiter efficacement les deux tâches via une pipeline standard, dépassant les approches de pointe actuelles. En outre, notre cadre présente des avantages supplémentaires, notamment la capacité à générer des analyses du corps humain à différentes granularités en unifiant les annotations provenant de différentes bases de données.

Graphonomie : Interprétation universelle d’images par raisonnement graphique et transfert | Articles de recherche récents | HyperAI