Maximisation de l'information transductive pour l'apprentissage peu supervisé

Nous introduisons une méthode nommée Maximisation de l'information transductive (TIM) pour l'apprentissage peu répété (few-shot learning). Notre approche consiste à maximiser l'information mutuelle entre les caractéristiques de requête (query features) et leurs prédictions d'étiquettes pour une tâche peu répétée donnée, en combinant cette optimisation avec une perte de supervision fondée sur l'ensemble de support (support set). Par ailleurs, nous proposons un nouvel algorithme de résolution par directions alternées pour notre perte d'information mutuelle, qui accélère considérablement la convergence de l'inférence transductive par rapport aux méthodes basées sur le gradient, tout en atteignant une précision similaire. L'inférence de TIM est modulaire : elle peut être appliquée indépendamment de tout extracteur de caractéristiques de base entraîné. Dans le cadre des configurations standards d'apprentissage transductif peu répété, nos expériences approfondies montrent que TIM surpasse significativement les méthodes de pointe sur diverses bases de données et architectures réseau, même lorsqu'elle est utilisée avec un extracteur de caractéristiques fixe entraîné uniquement par une entropie croisée simple sur les classes de base, sans recourir à des schémas complexes d'apprentissage métacognitif (meta-learning). Elle améliore de manière cohérente la précision de 2 à 5 % par rapport à la meilleure méthode existante, non seulement sur les benchmarks classiques du few-shot learning, mais également dans des scénarios plus exigeants, incluant des décalages de domaine et un plus grand nombre de classes.