Ensemble De Données De Compréhension De Référence D'objet Cops-Ref
Date
il y a 2 ans
URL de publication
Licence
其他
Catégories

Cops-Ref signifie Compositional Referring Expression Comprehension, qui est un ensemble de données d'images de raisonnement visuel sur la compréhension de la référence de l'objet cible. L'ensemble de données contient 75 299 images réelles, 148 712 descriptions textuelles et 1 307 885 régions candidates.
Cet ensemble de données présente deux caractéristiques principales. One est un nouveau moteur de génération de texte capable de combiner logique de raisonnement et fonctionnalités visuelles pour générer des descriptions de texte de différents degrés de complexité. L’autre est un nouveau paramètre de test qui interfère avec des images visuelles sémantiquement similaires pendant le test.