Détection d'objets à vocabulaire ouvert par distillation de connaissances visuelles et linguistiques

Nous visons à faire progresser la détection d'objets à vocabulaire ouvert, qui détecte des objets décrits par des entrées textuelles arbitraires. Le défi fondamental réside dans la disponibilité des données d'entraînement. Il est coûteux d'augmenter davantage le nombre de classes contenues dans les jeux de données existants pour la détection d'objets. Pour surmonter ce défi, nous proposons ViLD, une méthode d'entraînement par distillation de connaissances en Vision et Langage. Notre méthode distille les connaissances d'un modèle pré-entraîné de classification d'images à vocabulaire ouvert (le maître) vers un détecteur en deux étapes (l'élève). Plus précisément, nous utilisons le modèle maître pour encoder les textes de catégories et les régions d'images des propositions d'objets. Ensuite, nous entraînons un détecteur élève, dont les plongements régionaux des boîtes détectées sont alignés avec les plongements textuels et visuels inférés par le maître. Nous évaluons notre méthode sur LVIS en excluant toutes les catégories rares comme étant des catégories nouvelles non vues lors de l'entraînement. ViLD obtient un masque AP$r$ de 16,1 avec une architecture ResNet-50, surpassant même son homologue supervisé de 3,8 points. Lorsqu'il est entraîné avec un modèle maître plus performant, ALIGN, ViLD atteint un AP$_r$ de 26,3. Le modèle peut être transféré directement à d'autres jeux de données sans réajustement fin, obtenant un AP${50}$ de 72,2 sur PASCAL VOC, un AP de 36,6 sur COCO et un AP de 11,8 sur Objects365. Sur COCO, ViLD dépasse l'état de l'art précédent de 4,8 points en termes d'AP nouveau et de 11,4 points en termes d'AP global. Le code source et une démonstration sont disponibles à l'adresse suivante : https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild.