HyperAIHyperAI

Command Palette

Search for a command to run...

RegionCLIP : Pré-entraînement Langage-Image Basé sur les Régions

Résumé

Le préentraînement contrastif langage-image (CLIP) basé sur des paires image-texte a obtenu des résultats remarquables en classification d’images, tant dans des scénarios zero-shot que dans des tâches de transfer learning. Toutefois, nous montrons qu’une application directe de ces modèles pour la reconnaissance de régions d’image dans la détection d’objets conduit à de mauvaises performances, en raison d’un décalage de domaine : CLIP a été entraîné pour associer une image dans sa globalité à une description textuelle, sans capturer l’alignement fin entre des régions d’image et des segments textuels. Pour atténuer ce problème, nous proposons une nouvelle méthode appelée RegionCLIP, qui étend significativement CLIP afin d’apprendre des représentations visuelles au niveau des régions, permettant ainsi un alignement fin entre les régions d’image et les concepts textuels. Notre méthode exploite un modèle CLIP pour associer des régions d’image à des légendes modèles, puis préentraîne notre modèle pour aligner ces paires région-texte dans l’espace des caractéristiques. Lors du transfert de notre modèle préentraîné vers des tâches de détection d’objets à vocabulaire ouvert, notre méthode dépasse largement l’état de l’art, avec une amélioration de 3,8 points AP50 et de 2,2 points AP pour les catégories nouvelles sur les jeux de données COCO et LVIS, respectivement. En outre, les représentations de régions apprises permettent une inférence zero-shot pour la détection d’objets, obtenant des résultats prometteurs sur les deux jeux de données COCO et LVIS. Notre code est disponible à l’adresse suivante : https://github.com/microsoft/RegionCLIP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
RegionCLIP : Pré-entraînement Langage-Image Basé sur les Régions | Articles | HyperAI