HyperAIHyperAI

Command Palette

Search for a command to run...

Détection d'objets à vocabulaire ouvert par distillation de connaissances visuelles et linguistiques

Xiuye Gu; Tsung-Yi Lin; Weicheng Kuo; Yin Cui

Résumé

Nous visons à faire progresser la détection d'objets à vocabulaire ouvert, qui détecte des objets décrits par des entrées textuelles arbitraires. Le défi fondamental réside dans la disponibilité des données d'entraînement. Il est coûteux d'augmenter davantage le nombre de classes contenues dans les jeux de données existants pour la détection d'objets. Pour surmonter ce défi, nous proposons ViLD, une méthode d'entraînement par distillation de connaissances en Vision et Langage. Notre méthode distille les connaissances d'un modèle pré-entraîné de classification d'images à vocabulaire ouvert (le maître) vers un détecteur en deux étapes (l'élève). Plus précisément, nous utilisons le modèle maître pour encoder les textes de catégories et les régions d'images des propositions d'objets. Ensuite, nous entraînons un détecteur élève, dont les plongements régionaux des boîtes détectées sont alignés avec les plongements textuels et visuels inférés par le maître. Nous évaluons notre méthode sur LVIS en excluant toutes les catégories rares comme étant des catégories nouvelles non vues lors de l'entraînement. ViLD obtient un masque APrrr de 16,1 avec une architecture ResNet-50, surpassant même son homologue supervisé de 3,8 points. Lorsqu'il est entraîné avec un modèle maître plus performant, ALIGN, ViLD atteint un APr_rr de 26,3. Le modèle peut être transféré directement à d'autres jeux de données sans réajustement fin, obtenant un AP50{50}50 de 72,2 sur PASCAL VOC, un AP de 36,6 sur COCO et un AP de 11,8 sur Objects365. Sur COCO, ViLD dépasse l'état de l'art précédent de 4,8 points en termes d'AP nouveau et de 11,4 points en termes d'AP global. Le code source et une démonstration sont disponibles à l'adresse suivante : https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp