il y a 16 jours

Génération de graphe de scène sans localisation

Ege Özsoy, Felix Holm, Mahdi Saleh, Tobias Czempiel, Chantal Pellegrini, Nassir Navab, Benjamin Busam

Résumé

La génération de graphes de scène (SGG) est une tâche de compréhension visuelle visant à décrire une scène sous la forme d’un graphe reliant des entités et leurs relations mutuelles. Les approches existantes reposent sur des étiquettes de localisation, telles que des boîtes englobantes ou des masques de segmentation, ce qui augmente les coûts d’annotation et limite l’expansion des jeux de données. En remarquant que de nombreuses applications n’exigent pas de données de localisation, nous rompons cette dépendance en introduisant une nouvelle tâche : la génération de graphes de scène sans localisation (LF-SGG). Ce nouveau cadre vise à prédire les instances d’entités ainsi que leurs relations, sans calcul explicite de leur localisation spatiale. Pour évaluer objectivement cette tâche, il est nécessaire de comparer les graphes prédits aux graphes de référence. Nous résolvons ce problème NP-dur grâce à un algorithme de branchement efficace. Par ailleurs, nous proposons la première méthode pour LF-SGG, nommée Pix2SG, basée sur une modélisation séquentielle autoregressive. Nous démontrons l’efficacité de notre approche sur trois jeux de données de génération de graphes de scène ainsi que sur deux tâches en aval : la recherche d’images et la réponse à des questions visuelles. Nos résultats montrent que notre méthode est compétitive par rapport aux approches existantes, tout en n’exploitant pas d’indices de localisation.