HyperAIHyperAI

Command Palette

Search for a command to run...

Détection d'objets simple à vocabulaire ouvert avec des transformateurs visuels

Résumé

La combinaison d'architectures simples avec une pré-formation à grande échelle a conduit à des améliorations massives dans la classification d'images. Pour la détection d'objets, les approches de pré-formation et de mise à l'échelle sont moins bien établies, en particulier dans le cadre de distributions à queue longue (long-tailed) et de vocabulaire ouvert (open-vocabulary), où les données d'entraînement sont relativement rares. Dans cet article, nous proposons une méthode robuste pour transférer des modèles image-texte vers la détection d'objets à vocabulaire ouvert. Nous utilisons une architecture standard de Transformer visuel avec des modifications minimales, une pré-formation contrastive image-texte, et un affinage de détection de bout en bout. Notre analyse des propriétés de mise à l'échelle de cette configuration montre que l'augmentation du pré-entraînement au niveau des images et de la taille du modèle apporte des améliorations constantes sur la tâche de détection en aval. Nous fournissons les stratégies d'adaptation et les régularisations nécessaires pour obtenir des performances très solides dans la détection d'objets conditionnée par le texte sans exemple (zero-shot) et conditionnée par l'image avec un seul exemple (one-shot). Le code et les modèles sont disponibles sur GitHub.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp