HyperAIHyperAI

Command Palette

Search for a command to run...

Étendre la détection d'objets à vocabulaire ouvert

Matthias Minderer; Alexey Gritsenko; Neil Houlsby

Résumé

La détection d'objets à vocabulaire ouvert a beaucoup bénéficié des modèles de vision-langue préentraînés, mais elle est encore limitée par la quantité de données d'entraînement disponibles pour la détection. Bien que les données d'entraînement pour la détection puissent être élargies en utilisant des paires image-texte issues du Web comme supervision faible, cela n'a pas été réalisé à l'échelle comparable à celle de l'entraînement préliminaire au niveau des images. Dans ce travail, nous augmentons les données de détection grâce à l'auto-entraînement, qui utilise un détecteur existant pour générer des annotations pseudo-boîtes sur des paires image-texte. Les principaux défis liés à l'échelle de l'auto-entraînement sont le choix de l'espace étiquette, le filtrage des annotations pseudo et l'efficacité de l'entraînement. Nous présentons le modèle OWLv2 et la recette d'auto-entraînement OWL-ST, qui répondent à ces défis. OWLv2 dépasse déjà les performances des détecteurs précédents d'avant-garde en termes de vocabulaire ouvert à des échelles comparables d'entraînement (~10 millions d'exemples). Cependant, avec OWL-ST, nous pouvons atteindre plus d'un milliard d'exemples, ce qui entraîne une amélioration considérable supplémentaire : Avec une architecture L/14, OWL-ST améliore le AP (Average Precision) sur les classes rares de LVIS, pour lesquelles le modèle n'a vu aucune annotation manuelle de boîtes, de 31,2 % à 44,6 % (amélioration relative de 43 %). OWL-ST permet ainsi un entraînement à grande échelle sur le Web pour la localisation dans un monde ouvert, similaire à ce qui a été observé pour la classification d'images et le modélisation linguistique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Étendre la détection d'objets à vocabulaire ouvert | Articles | HyperAI