Perte de polarité pour la détection d'objets sans supervision préalable

Les modèles de détection d'objets conventionnels nécessitent de grandes quantités de données d'entraînement. En revanche, les humains peuvent reconnaître des objets jamais vus précédemment simplement en connaissant leur description sémantique. Pour imiter ce comportement, la détection d'objets à zéro coup d'œil vise à reconnaître et localiser des instances d'objets « inconnus » en utilisant uniquement leurs informations sémantiques. Le modèle est d'abord entraîné pour apprendre les relations entre les domaines visuel et sémantique pour les objets connus, puis transfère cette connaissance acquise aux objets totalement inconnus. Ce cadre soulève le besoin d'un alignement correct entre les concepts visuels et sémantiques, afin que les objets inconnus puissent être identifiés uniquement à partir de leurs attributs sémantiques. Dans cet article, nous proposons une nouvelle fonction de perte appelée « perte de polarité » (Polarity loss), qui favorise un alignement visuel-sémantique correct pour améliorer la détection d'objets à zéro coup d'œil. D'une part, elle affine les plongements sémantiques bruyants par apprentissage métrique sur un « vocabulaire sémantique » (Semantic vocabulary) de concepts apparentés, établissant ainsi une meilleure synergie entre les domaines visuel et sémantique. D'autre part, elle maximise explicitement l'écart entre les prédictions positives et négatives pour obtenir une meilleure discrimination entre objets connus, inconnus et arrière-plan. Notre approche est inspirée par les théories de l'emboîtement dans la science cognitive, qui affirment que la compréhension sémantique humaine est fondée sur des expériences passées (objets connus), des concepts linguistiques apparentés (vocabulaire lexical) et la perception visuelle (images d'objets connus/inconnus). Nous menons des évaluations exhaustives sur les jeux de données MS-COCO et Pascal VOC, montrant des améliorations significatives par rapport à l'état de l'art.