HyperAIHyperAI
il y a 2 mois

HiLo : Exploitation des relations de fréquence haute et basse pour la génération panoptique de graphes de scène sans biais

Zijian Zhou; Miaojing Shi; Holger Caesar
HiLo : Exploitation des relations de fréquence haute et basse pour la génération panoptique de graphes de scène sans biais
Résumé

La génération de graphes de scènes panoptiques (PSG) est une tâche récemment proposée dans le domaine de la compréhension des scènes d'images, visant à segmenter l'image et extraire des triplets composés de sujets, d'objets et de leurs relations pour construire un graphe de scène. Cette tâche présente deux défis majeurs. Premièrement, elle souffre d'un problème de queue longue dans ses catégories de relations, ce qui pousse les méthodes naïves et biaisées à privilégier les relations à haute fréquence. Les méthodes existantes sans biais abordent ce problème en rééquilibrant les données ou les pertes afin de favoriser les relations à basse fréquence. Deuxièmement, un couple sujet-objet peut avoir deux ou plusieurs relations sémantiquement chevauchantes. Alors que les méthodes actuelles favorisent une relation sur les autres, notre cadre proposé HiLo permet aux différentes branches du réseau de se spécialiser sur les relations à basse et haute fréquence, d'en assurer la cohérence et de fusionner les résultats. À notre connaissance, nous sommes les premiers à proposer une méthode PSG explicitement sans biais. Dans des expériences approfondies, nous montrons que notre cadre HiLo obtient des résultats d'état de l'art sur la tâche PSG. Nous appliquons également notre méthode à la tâche de génération de graphes de scènes qui prédit des boîtes au lieu de masques et observons des améliorations par rapport à toutes les méthodes de base. Le code est disponible sur https://github.com/franciszzj/HiLo.