HyperAIHyperAI
il y a 2 mois

Reconnaissance d'entités visuelles de domaine ouvert : Vers la reconnaissance de millions d'entités Wikipédia

Hu, Hexiang ; Luan, Yi ; Chen, Yang ; Khandelwal, Urvashi ; Joshi, Mandar ; Lee, Kenton ; Toutanova, Kristina ; Chang, Ming-Wei
Reconnaissance d'entités visuelles de domaine ouvert : Vers la reconnaissance de millions d'entités Wikipédia
Résumé

Les modèles de pré-entraînement multi-modaux à grande échelle tels que CLIP et PaLI montrent une forte généralisation dans divers domaines visuels et tâches. Cependant, les benchmarks existants d'identification d'images évaluent souvent la reconnaissance sur un domaine spécifique (par exemple, des images extérieures) ou une tâche spécifique (par exemple, la classification d'espèces végétales), ce qui ne permet pas d'évaluer si les modèles de base pré-entraînés sont des reconnaissants visuels universels. Pour remédier à cela, nous présentons formellement la tâche de Reconnaissance d'Entités Visuelles à Domaine Ouvert (OVEN), où un modèle doit associer une image à une entité Wikipédia en fonction d'une requête textuelle. Nous construisons OVEN-Wiki en réutilisant 14 jeux de données existants avec tous les labels ancrés dans un seul espace de labels : les entités Wikipédia. OVEN défie les modèles à choisir parmi six millions d'entités Wikipédia possibles, ce qui en fait un benchmark de reconnaissance visuelle générale avec le plus grand nombre de labels. Notre étude sur les modèles pré-entraînés de pointe révèle un grand potentiel d'amélioration pour la généralisation à cet espace de labels massif. Nous montrons qu'un modèle de reconnaissance visuelle auto-régressif basé sur PaLI performe de manière surprenante, même pour des entités Wikipédia jamais rencontrées lors du fine-tuning. Nous constatons également que les modèles pré-entraînés existants présentent différentes forces : bien que les modèles basés sur PaLI obtiennent des performances globales supérieures, les modèles basés sur CLIP sont meilleurs pour reconnaître des entités rares (tail entities).