HyperAIHyperAI
il y a 2 mois

Propagation de Labels pour la Classification Zero-shot avec des Modèles Vision-Langue

Stojnić, Vladan ; Kalantidis, Yannis ; Tolias, Giorgos
Propagation de Labels pour la Classification Zero-shot avec des Modèles Vision-Langue
Résumé

Les modèles Vision-Langage (VLMs) ont démontré des performances impressionnantes en classification à zéro coup d'œil, c'est-à-dire la classification lorsqu'on ne fournit qu'une liste de noms de classes. Dans cet article, nous abordons le cas de la classification à zéro coup d'œil en présence de données non étiquetées. Nous exploitons la structure graphique des données non étiquetées et introduisons ZLaP, une méthode basée sur la propagation des labels (LP) qui utilise les distances géodésiques pour la classification. Nous adaptons LP aux graphes contenant à la fois des caractéristiques textuelles et visuelles, et proposons en outre une méthode efficace pour effectuer l'inférence inductive basée sur une solution duale et une étape de raréfaction. Nous menons des expériences approfondies pour évaluer l'efficacité de notre méthode sur 14 jeux de données courants et montrons que ZLaP surpassent les travaux les plus récents dans ce domaine. Code : https://github.com/vladan-stojnic/ZLaP