HyperAIHyperAI
il y a 2 mois

Supervision Web pour l'Élargissement des Concepts dans les Modèles Visuels Généraux

Amita Kamath; Christopher Clark; Tanmay Gupta; Eric Kolve; Derek Hoiem; Aniruddha Kembhavi
Supervision Web pour l'Élargissement des Concepts dans les Modèles Visuels Généraux
Résumé

Les systèmes de Vision à Usage Général (VUG) sont des modèles conçus pour résoudre une large gamme de tâches visuelles sans nécessiter de modifications architecturales. Aujourd'hui, les VUG apprennent principalement à la fois des compétences et des concepts à partir de grands ensembles de données entièrement supervisés. Étendre les VUG à plusieurs dizaines de milliers de concepts en acquérant des données pour apprendre chaque concept pour chaque compétence devient rapidement prohibitif. Cette étude présente une alternative efficace et peu coûteuse : apprendre les compétences à partir d'ensembles de données supervisés, apprendre les concepts à partir de recherches d'images sur le web, et exploiter une caractéristique clé des VUG : la capacité de transférer les connaissances visuelles entre les compétences. Nous utilisons un ensemble de données comprenant plus d'un million d'images couvrant plus de 10 000 concepts visuels pour démontrer l'expansion conceptuelle semi-supervisée par le web pour deux VUG existants (VUG-1 et VL-T5) sur trois benchmarks : cinq ensembles de données basés sur COCO (80 concepts principaux), une nouvelle série de cinq ensembles de données basés sur les dépôts OpenImages et VisualGenome (environ 500 concepts), et un ensemble de données dérivé du web (plus de 10 000 concepts). Nous proposons également une nouvelle architecture, VUG-2, qui prend en charge diverses tâches – allant des tâches purement visuelles comme la classification et la localisation aux tâches vision+langage comme la Q&A et la légendage, jusqu'à des tâches plus spécialisées comme la détection d'interactions humain-objet. Le VUG-2 bénéficie énormément des données web et surpasses le VUG-1 et le VL-T5 sur ces benchmarks. Nos données, notre code et notre démonstration web sont disponibles à l'adresse suivante : https://prior.allenai.org/projects/gpv2.Note: - "General Purpose Vision" est traduit par "Vision à Usage Général" (VUG) car c'est une expression couramment utilisée dans le domaine francophone.- "webly-supervised" est traduit par "semi-supervisée par le web" pour maintenir la clarté tout en restant proche du terme original.- Les noms propres comme "COCO", "OpenImages", "VisualGenome", "GPV-1", "VL-T5", et "GPV-2" sont conservés tels quels, conformément aux conventions académiques.

Supervision Web pour l'Élargissement des Concepts dans les Modèles Visuels Généraux | Articles de recherche récents | HyperAI