il y a 8 mois

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen

Résumé

La combinaison d'architectures simples avec une pré-formation à grande échelle a conduit à des améliorations massives dans la classification d'images. Pour la détection d'objets, les approches de pré-formation et de mise à l'échelle sont moins bien établies, en particulier dans le cadre de distributions à queue longue (long-tailed) et de vocabulaire ouvert (open-vocabulary), où les données d'entraînement sont relativement rares. Dans cet article, nous proposons une méthode robuste pour transférer des modèles image-texte vers la détection d'objets à vocabulaire ouvert. Nous utilisons une architecture standard de Transformer visuel avec des modifications minimales, une pré-formation contrastive image-texte, et un affinage de détection de bout en bout. Notre analyse des propriétés de mise à l'échelle de cette configuration montre que l'augmentation du pré-entraînement au niveau des images et de la taille du modèle apporte des améliorations constantes sur la tâche de détection en aval. Nous fournissons les stratégies d'adaptation et les régularisations nécessaires pour obtenir des performances très solides dans la détection d'objets conditionnée par le texte sans exemple (zero-shot) et conditionnée par l'image avec un seul exemple (one-shot). Le code et les modèles sont disponibles sur GitHub.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Détection D'objets

Multimodal

Classification D'images

Multimodal

Vision Par Ordinateur

Tâche

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Détection D'objets

Multimodal

Classification D'images

Multimodal

Vision Par Ordinateur

Tâche

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Détection d'objets simple à vocabulaire ouvert avec des transformateurs visuels

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Détection d'objets simple à vocabulaire ouvert avec des transformateurs visuels

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Détection d'objets simple à vocabulaire ouvert avec des transformateurs visuels

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen