HyperAIHyperAI
il y a 2 mois

Génération de Graphes de Scène Panoptiques

Jingkang Yang; Yi Zhe Ang; Zujin Guo; Kaiyang Zhou; Wayne Zhang; Ziwei Liu
Génération de Graphes de Scène Panoptiques
Résumé

Les recherches existantes abordent la génération de graphes de scène (SGG) -- une technologie cruciale pour la compréhension des scènes dans les images -- sous l'angle de la détection, c'est-à-dire que les objets sont détectés à l'aide de boîtes englobantes, suivis par la prédiction de leurs relations deux à deux. Nous soutenons que ce paradigme entraîne plusieurs problèmes qui entravent le progrès du domaine. Par exemple, les étiquettes basées sur des boîtes englobantes dans les jeux de données actuels contiennent souvent des classes redondantes comme les cheveux et omettent des informations de fond essentielles à la compréhension du contexte. Dans cette étude, nous introduisons la génération de graphes de scène panoptique (PSG), une nouvelle tâche qui exige que le modèle génère une représentation plus complète du graphe de scène basée sur des segmentations panoptiques plutôt que sur des boîtes englobantes rigides. Un ensemble de données PSG de haute qualité a été créé, comprenant 49 000 images superposées bien annotées provenant de COCO et Visual Genome, afin que la communauté puisse suivre ses progrès. Pour établir un benchmark, nous avons développé quatre modèles baselines en deux étapes, modifiés à partir des méthodes classiques en SGG, ainsi que deux modèles baselines en une seule étape appelés PSGTR et PSGFormer, qui s'appuient sur un détecteur efficace basé sur le Transformer, c'est-à-dire DETR. Alors que PSGTR utilise un ensemble de requêtes pour apprendre directement des triplets, PSGFormer modélise séparément les objets et les relations sous forme de requêtes issues de deux décodeurs Transformer, suivi d'un mécanisme d'appariement relation-objet similaire à une incitation. Enfin, nous partageons nos réflexions sur les défis ouverts et les orientations futures.

Génération de Graphes de Scène Panoptiques | Articles de recherche récents | HyperAI