HyperAIHyperAI
il y a 2 mois

Amélioration de la détection des relations visuelles à l'aide de cartes de profondeur

Sahand Sharifzadeh; Sina Moayed Baharlou; Max Berrendorf; Rajat Koner; Volker Tresp
Amélioration de la détection des relations visuelles à l'aide de cartes de profondeur
Résumé

Les méthodes de détection des relations visuelles s'appuient sur les informations d'objets extraites des images RGB, telles que les boîtes englobantes 2D, les cartes de caractéristiques et les probabilités de classes prédites. Nous soutenons que les cartes de profondeur peuvent fournir des informations précieuses supplémentaires sur les relations entre objets, aidant non seulement à détecter des relations spatiales comme se tenir derrière, mais aussi des relations non spatiales comme tenir (holding). Dans cette étude, nous examinons l'effet de l'utilisation de différentes caractéristiques d'objets, en mettant particulièrement l'accent sur les cartes de profondeur. Pour permettre cette analyse, nous publions un nouveau jeu de données synthétiques de cartes de profondeur, appelé VG-Depth, en tant qu'extension du Visual Genome (VG). Nous notons également que, compte tenu de la distribution hautement déséquilibrée des relations dans VG, les métriques d'évaluation typiques pour la détection des relations visuelles ne révèlent pas les améliorations des relations sous-représentées. Pour résoudre ce problème, nous proposons d'utiliser une métrique supplémentaire, que nous appelons Macro Recall@K, et nous démontrons ses performances remarquables sur VG. Enfin, nos expériences confirment que l'utilisation efficace des cartes de profondeur au sein d'un cadre simple mais compétitif peut améliorer la performance de la détection des relations visuelles jusqu'à 8 %.

Amélioration de la détection des relations visuelles à l'aide de cartes de profondeur | Articles de recherche récents | HyperAI