OvarNet : Vers la Reconnaissance d'Attributs d'Objets à Vocabulaire Ouvert

Dans cet article, nous abordons le problème de la détection simultanée d'objets et de l'inférence de leurs attributs visuels dans une image, même pour ceux qui n'ont pas été manuellement annotés lors de l'étape d'entraînement, ce qui ressemble à un scénario à vocabulaire ouvert. Pour atteindre cet objectif, nous apportons les contributions suivantes : (i) nous commençons par une approche naïve en deux étapes pour la détection d'objets à vocabulaire ouvert et la classification des attributs, appelée CLIP-Attr. Les objets candidats sont d'abord proposés avec un RPN hors ligne, puis classifiés pour leur catégorie sémantique et leurs attributs ; (ii) nous combinons tous les jeux de données disponibles et entraînons avec une stratégie fédérée pour affiner le modèle CLIP, alignant la représentation visuelle avec les attributs. De plus, nous examinons l'efficacité de l'utilisation de paires image-legacy librement disponibles en ligne sous un apprentissage faiblement supervisé ; (iii) dans le but d'améliorer l'efficacité, nous entraînons un modèle de type Faster-RCNN en bout-à-bout avec distillation de connaissances, qui effectue des propositions d'objets indépendantes de la classe et une classification sur les catégories sémantiques et les attributs grâce à des classifieurs générés par un encodeur texte ; Enfin, (iv) nous menons des expériences exhaustives sur les jeux de données VAW, MS-COCO, LSA et OVAD, et montrons que la reconnaissance des catégories sémantiques et des attributs est complémentaire pour la compréhension des scènes visuelles. Autrement dit, l'entraînement conjoint de la détection d'objets et de la prédiction des attributs surpass largement les approches existantes qui traitent ces deux tâches séparément, démontrant une forte capacité de généralisation aux nouveaux attributs et catégories.