HyperAIHyperAI
il y a 2 mois

Détection d'attributs à vocabulaire ouvert

Bravo, María A. ; Mittal, Sudhanshu ; Ging, Simon ; Brox, Thomas
Détection d'attributs à vocabulaire ouvert
Résumé

Le modèle de vision-langue a permis la réalisation de tâches à vocabulaire ouvert où des prédictions peuvent être interrogées à l'aide de tout texte-prompt de manière zéro-shot. Les tâches existantes à vocabulaire ouvert se concentrent sur les classes d'objets, tandis que les recherches sur les attributs d'objets sont limitées en raison du manque d'un benchmark d'évaluation fiable axé sur les attributs. Cet article introduit la tâche de détection d'attributs à vocabulaire ouvert (OVAD) et le benchmark OVAD correspondant. L'objectif de cette nouvelle tâche et de ce benchmark est d'examiner les informations sur les attributs au niveau des objets apprises par les modèles de vision-langue. À cet effet, nous avons créé un ensemble de test propre et dense couvrant 117 classes d'attributs sur les 80 classes d'objets de MS COCO. Il inclut des annotations positives et négatives, ce qui permet une évaluation à vocabulaire ouvert. Dans son ensemble, le benchmark comprend 1,4 million d'annotations. Pour référence, nous fournissons une première méthode de base pour la détection d'attributs à vocabulaire ouvert. De plus, nous démontrons la valeur du benchmark en étudiant les performances de détection d'attributs de plusieurs modèles fondamentaux. Page du projet : https://ovad-benchmark.github.io