HyperAIHyperAI
il y a 2 mois

Étendre la détection d'objets à vocabulaire ouvert

Matthias Minderer; Alexey Gritsenko; Neil Houlsby
Étendre la détection d'objets à vocabulaire ouvert
Résumé

La détection d'objets à vocabulaire ouvert a beaucoup bénéficié des modèles de vision-langue préentraînés, mais elle est encore limitée par la quantité de données d'entraînement disponibles pour la détection. Bien que les données d'entraînement pour la détection puissent être élargies en utilisant des paires image-texte issues du Web comme supervision faible, cela n'a pas été réalisé à l'échelle comparable à celle de l'entraînement préliminaire au niveau des images. Dans ce travail, nous augmentons les données de détection grâce à l'auto-entraînement, qui utilise un détecteur existant pour générer des annotations pseudo-boîtes sur des paires image-texte. Les principaux défis liés à l'échelle de l'auto-entraînement sont le choix de l'espace étiquette, le filtrage des annotations pseudo et l'efficacité de l'entraînement. Nous présentons le modèle OWLv2 et la recette d'auto-entraînement OWL-ST, qui répondent à ces défis. OWLv2 dépasse déjà les performances des détecteurs précédents d'avant-garde en termes de vocabulaire ouvert à des échelles comparables d'entraînement (~10 millions d'exemples). Cependant, avec OWL-ST, nous pouvons atteindre plus d'un milliard d'exemples, ce qui entraîne une amélioration considérable supplémentaire : Avec une architecture L/14, OWL-ST améliore le AP (Average Precision) sur les classes rares de LVIS, pour lesquelles le modèle n'a vu aucune annotation manuelle de boîtes, de 31,2 % à 44,6 % (amélioration relative de 43 %). OWL-ST permet ainsi un entraînement à grande échelle sur le Web pour la localisation dans un monde ouvert, similaire à ce qui a été observé pour la classification d'images et le modélisation linguistique.

Étendre la détection d'objets à vocabulaire ouvert | Articles de recherche récents | HyperAI