HyperAIHyperAI
il y a 2 mois

Détection d'objets simple à vocabulaire ouvert avec des transformateurs visuels

Minderer, Matthias ; Gritsenko, Alexey ; Stone, Austin ; Neumann, Maxim ; Weissenborn, Dirk ; Dosovitskiy, Alexey ; Mahendran, Aravindh ; Arnab, Anurag ; Dehghani, Mostafa ; Shen, Zhuoran ; Wang, Xiao ; Zhai, Xiaohua ; Kipf, Thomas ; Houlsby, Neil
Détection d'objets simple à vocabulaire ouvert avec des transformateurs visuels
Résumé

La combinaison d'architectures simples avec une pré-formation à grande échelle a conduit à des améliorations massives dans la classification d'images. Pour la détection d'objets, les approches de pré-formation et de mise à l'échelle sont moins bien établies, en particulier dans le cadre de distributions à queue longue (long-tailed) et de vocabulaire ouvert (open-vocabulary), où les données d'entraînement sont relativement rares. Dans cet article, nous proposons une méthode robuste pour transférer des modèles image-texte vers la détection d'objets à vocabulaire ouvert. Nous utilisons une architecture standard de Transformer visuel avec des modifications minimales, une pré-formation contrastive image-texte, et un affinage de détection de bout en bout. Notre analyse des propriétés de mise à l'échelle de cette configuration montre que l'augmentation du pré-entraînement au niveau des images et de la taille du modèle apporte des améliorations constantes sur la tâche de détection en aval. Nous fournissons les stratégies d'adaptation et les régularisations nécessaires pour obtenir des performances très solides dans la détection d'objets conditionnée par le texte sans exemple (zero-shot) et conditionnée par l'image avec un seul exemple (one-shot). Le code et les modèles sont disponibles sur GitHub.

Détection d'objets simple à vocabulaire ouvert avec des transformateurs visuels | Articles de recherche récents | HyperAI