HyperAIHyperAI
il y a 11 jours

Comptage d'objets spécifiés par le texte dans un monde ouvert

Niki Amini-Naieni, Kiana Amini-Naieni, Tengda Han, Andrew Zisserman
Comptage d'objets spécifiés par le texte dans un monde ouvert
Résumé

Notre objectif est le dénombrement d’objets dans un monde ouvert à partir d’images, où la classe d’objet cible est spécifiée par une description textuelle. À cette fin, nous proposons CounTX, un modèle unifié et à une seule étape, basé sur un décodeur Transformer doté d’une tête de dénombrement, construit sur des représentations pré-entraînées conjointes texte-image. CounTX est capable de compter le nombre d’instances d’une classe quelconque, à condition de disposer uniquement d’une image et d’une description textuelle de la classe d’objet cible, et peut être entraîné de manière end-to-end. En complément de ce modèle, nous apportons les contributions suivantes : (i) nous comparons les performances de CounTX aux travaux antérieurs dans le cadre du dénombrement d’objets en monde ouvert, et montrons que notre approche surpassent l’état de l’art sur tous les critères sur le benchmark FSC-147 pour les méthodes utilisant une description textuelle pour spécifier la tâche ; (ii) nous présentons et mettons à disposition FSC-147-D, une version améliorée de FSC-147 enrichie de descriptions textuelles, permettant ainsi de décrire les classes d’objets avec une langue plus détaillée que leurs simples noms de classe. FSC-147-D et le code source sont disponibles à l’adresse suivante : https://www.robots.ox.ac.uk/~vgg/research/countx.

Comptage d'objets spécifiés par le texte dans un monde ouvert | Articles de recherche récents | HyperAI