il y a 17 jours

Évaluation réaliste de l'apprentissage peu supervisé transductif

Olivier Veilleux, Malik Boudiaf, Pablo Piantanida, Ismail Ben Ayed

Résumé

L’inférence transductive est largement utilisée dans le cadre de l’apprentissage peu chronologique (few-shot learning), car elle exploite les statistiques de l’ensemble de requêtes non étiquetées d’une tâche peu chronologique, conduisant généralement à des performances significativement supérieures à celles de sa contrepartie inductive. Les benchmarks actuels pour l’apprentissage peu chronologique reposent sur des tâches parfaitement équilibrées en classes au moment de l’inférence. Nous soutenons que cette régularité artificielle est peu réaliste, car elle suppose que la probabilité marginale des étiquettes des échantillons de test est connue et fixée à une distribution uniforme. En réalité, dans des scénarios réalistes, les ensembles de requêtes non étiquetées présentent des marginales de classes arbitraires et inconnues. Nous introduisons et étudions l’effet de distributions de classes arbitraires au sein des ensembles de requêtes lors de l’inférence dans les tâches peu chronologiques, en éliminant ainsi l’artefact d’équilibre des classes. Plus précisément, nous modélisons les probabilités marginales des classes comme des variables aléatoires distribuées selon une loi de Dirichlet, ce qui permet un échantillonnage fondé et réaliste dans le simplexe. Cette approche s’appuie sur les benchmarks existants pour construire des tâches de test avec des distributions de classes arbitraires. Nous évaluons expérimentalement des méthodes transductives de pointe sur trois jeux de données largement utilisés, et observons, de manière surprenante, des baisses substantielles de performance, parfois même inférieures à celles des méthodes inductives. En outre, nous proposons une généralisation de la perte basée sur l’information mutuelle, fondée sur les divergences α, capable de gérer efficacement les variations de distribution de classes. Expérimentalement, nous montrons que notre optimisation transductive basée sur les divergences α surpasse les méthodes de pointe sur plusieurs jeux de données, modèles et configurations peu chronologiques. Notre code est disponible publiquement à l’adresse suivante : https://github.com/oveilleux/Realistic_Transductive_Few_Shot.