LOCL : Apprentissage de la composition objet-attribut par localisation

Cet article présente LOCL (Learning Object Attribute Composition using Localization), une méthode qui généralise l’apprentissage composé zéro-shot aux objets dans des scènes encombrées et plus réalistes. Si le problème des associations objet-attribut (OA) inconnues a été largement étudié dans la littérature, les performances des méthodes existantes restent limitées dans des scènes complexes. Dans ce contexte, notre contribution principale réside dans une approche modulaire permettant de localiser, dans un cadre faiblement supervisé, les objets et attributs d’intérêt, tout en se généralisant de manière robuste à des configurations inédites. La combinaison de la localisation avec un classificateur composé surpasse significativement les méthodes de l’état de l’art (SOTA), avec une amélioration d’environ 12 % sur les jeux de données actuellement les plus exigeants. En outre, la modularité de notre approche permet d’intégrer un extracteur de caractéristiques localisées avec les méthodes existantes d’apprentissage composé OA, améliorant ainsi globalement leur performance.