Biaisage comme un humain : un cadre de biais cognitif pour la génération de graphes scéniques

La génération de graphe de scène est une tâche complexe, car elle ne repose pas sur un schéma de reconnaissance spécifique (par exemple, les relations « regarder » et « près de » ne présentent pas de différences visuelles évidentes, alors que « près de » peut s’appliquer à des entités de morphologie très différente). En conséquence, certaines méthodes de génération de graphe de scène sont amenées à prédire exclusivement les relations les plus fréquentes, en raison de caractéristiques visuelles capricieuses et d’étiquetages de données peu significatifs. Par conséquent, les travaux récents mettent l’accent sur des approches « non biaisées » afin d’équilibrer les prédictions et d’obtenir des graphes de scène plus informatifs. Pourtant, la capacité humaine à juger rapidement et précisément des relations entre de nombreux objets repose davantage sur un « biais » — c’est-à-dire l’expérience et les connaissances linguistiques — que sur la vision pure. Afin d’améliorer la capacité des modèles, inspirés par le mécanisme du « biais cognitif », nous proposons un cadre novateur en trois paradigmes qui simule la manière dont les humains utilisent les caractéristiques linguistiques des étiquettes comme guide pour les représentations basées sur la vision, afin d’extraire plus efficacement les motifs relationnels cachés et de réduire la propagation de bruit provenant des données visuelles. Notre cadre est indépendant du modèle utilisé pour la génération de graphe de scène. Des expériences approfondies démontrent que notre cadre surpasser les modules de base sur plusieurs métriques, avec une augmentation minimale du nombre de paramètres, et atteint une performance SOTA (state-of-the-art) sur le dataset Visual Genome.