HyperAIHyperAI
il y a 7 jours

VirTex : Apprentissage de représentations visuelles à partir d'annotations textuelles

Karan Desai, Justin Johnson
VirTex : Apprentissage de représentations visuelles à partir d'annotations textuelles
Résumé

L’approche de facto pour de nombreuses tâches de vision consiste à partir de représentations visuelles préentraînées, généralement apprises par apprentissage supervisé sur ImageNet. Des méthodes récentes ont exploré le préentraînement non supervisé afin d’échelonner à de très grandes quantités d’images non étiquetées. En revanche, nous visons à apprendre des représentations visuelles de haute qualité à partir d’un nombre réduit d’images. À cette fin, nous revisitons le préentraînement supervisé et cherchons des alternatives efficaces en données par rapport au préentraînement basé sur la classification. Nous proposons VirTex, une méthode de préentraînement utilisant des légendes sémantiquement denses pour apprendre des représentations visuelles. Nous entraînons des réseaux convolutionnels depuis le début sur le jeu de données COCO Captions, puis transférons ces modèles vers des tâches de reconnaissance en aval, notamment la classification d’images, la détection d’objets et la segmentation d’instances. Sur toutes ces tâches, VirTex produit des caractéristiques équivalentes ou supérieures à celles apprises sur ImageNet — qu’elles soient obtenues par apprentissage supervisé ou non supervisé — malgré l’utilisation d’un nombre d’images jusqu’à dix fois plus faible.

VirTex : Apprentissage de représentations visuelles à partir d'annotations textuelles | Articles de recherche récents | HyperAI