HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement de prompt avec vingt mille classes pour la reconnaissance visuelle à vocabulaire ouvert

Shuhuai Ren Aston Zhang Yi Zhu Shuai Zhang Shuai Zheng Mu Li Alex Smola Xu Sun

Résumé

Ce travail propose POMP, une méthode de pré-entraînement de prompts pour les modèles vision-langage. Économique en mémoire et en calcul, POMP permet à un prompt appris de condenser des informations sémantiques pour une large gamme de concepts visuels, couvrant plus de vingt mille classes. Une fois pré-entraîné, ce prompt, doté d'une forte capacité de transfert, peut être directement intégré à diverses tâches de reconnaissance visuelle — telles que la classification d’images, la segmentation sémantique ou la détection d’objets — afin d’améliorer les performances de reconnaissance de manière zéro-shot. Des évaluations empiriques montrent que POMP atteint des performances de pointe sur 21 jeux de données : par exemple, une précision moyenne de 67,0 % sur 10 jeux de données de classification (+3,1 % par rapport à CoOp) et un hIoU de 84,4 sur la segmentation open-vocabulary du Pascal VOC (+6,9 par rapport à ZSSeg). Le code est disponible à l’adresse suivante : https://github.com/amazon-science/prompt-pretraining.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Pré-entraînement de prompt avec vingt mille classes pour la reconnaissance visuelle à vocabulaire ouvert | Articles | HyperAI