HyperAIHyperAI

Command Palette

Search for a command to run...

Les Images Parlent en Images : Un Peintre Généraliste pour l'Apprentissage Visuel Contextuel

Xinlong Wang Wen Wang Yue Cao Chunhua Shen Tiejun Huang

Résumé

L'apprentissage en contexte, en tant que nouveau paradigme dans le traitement du langage naturel (NLP), permet au modèle de s'adapter rapidement à diverses tâches avec seulement quelques exemples et invites. Cependant, en vision par ordinateur, les difficultés de l'apprentissage en contexte résident dans le fait que les tâches varient considérablement en termes de représentations de sortie, ce qui rend incertaine la définition des invites de tâche polyvalentes que le modèle de vision peut comprendre et transférer à des tâches hors domaine. Dans cette étude, nous présentons Painter, un modèle généraliste qui surmonte ces obstacles grâce à une solution centrée sur l'« image », c'est-à-dire en redéfinissant la sortie des tâches de vision centrale comme des images et en spécifiant les invites de tâche également sous forme d'images. Avec cette approche, notre processus d'entraînement est extrêmement simple, effectuant un masquage standard d'images sur des paires d'images d'entrée et de sortie assemblées. Cela permet au modèle d'exécuter des tâches conditionnées par des patchs d'image visibles. Ainsi, lors de l'inférence, nous pouvons utiliser une paire d'images d'entrée et de sortie provenant de la même tâche comme condition d'entrée pour indiquer quelle tâche doit être réalisée. Sans recourir à des techniques complexes ou superflues, notre modèle généraliste Painter peut atteindre une performance compétitive comparée aux modèles spécialisés bien établis, sur sept tâches visuelles représentatives allant de la compréhension visuelle de haut niveau au traitement d'image de bas niveau. De plus, Painter surpass significativement les modèles généralistes récents sur plusieurs tâches difficiles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Les Images Parlent en Images : Un Peintre Généraliste pour l'Apprentissage Visuel Contextuel | Articles | HyperAI