Pré-entraînement de prompt avec vingt mille classes pour la reconnaissance visuelle à vocabulaire ouvert

Ce travail propose POMP, une méthode de pré-entraînement de prompts pour les modèles vision-langage. Économique en mémoire et en calcul, POMP permet à un prompt appris de condenser des informations sémantiques pour une large gamme de concepts visuels, couvrant plus de vingt mille classes. Une fois pré-entraîné, ce prompt, doté d'une forte capacité de transfert, peut être directement intégré à diverses tâches de reconnaissance visuelle — telles que la classification d’images, la segmentation sémantique ou la détection d’objets — afin d’améliorer les performances de reconnaissance de manière zéro-shot. Des évaluations empiriques montrent que POMP atteint des performances de pointe sur 21 jeux de données : par exemple, une précision moyenne de 67,0 % sur 10 jeux de données de classification (+3,1 % par rapport à CoOp) et un hIoU de 84,4 sur la segmentation open-vocabulary du Pascal VOC (+6,9 par rapport à ZSSeg). Le code est disponible à l’adresse suivante : https://github.com/amazon-science/prompt-pretraining.