Apprentissage par transfert évolutif avec des modèles experts

Le transfert de représentations pré-entraînées peut améliorer l’efficacité en échantillonnage et réduire les besoins en calcul pour de nouvelles tâches. Toutefois, les représentations utilisées pour le transfert sont généralement génériques et non adaptées à une distribution spécifique de tâches ultérieures. Nous explorons l’utilisation de représentations d’experts pour le transfert, via une stratégie simple mais efficace. Nous entraînons un ensemble diversifié d’experts en exploitant les structures de labels existantes, et utilisons des proxies de performance peu coûteux à calculer pour sélectionner l’expert pertinent pour chaque tâche cible. Cette stratégie permet d’échelonner le processus de transfert vers de nouvelles tâches, car elle n’implique pas de réexamen des données d’entraînement préalable lors du transfert. Par conséquent, elle nécessite peu de calcul supplémentaire par tâche cible, et permet une accélération de 2 à 3 ordres de grandeur par rapport aux approches concurrentes. En outre, nous proposons une architecture basée sur des adaptateurs, capable de compresser un grand nombre d’experts en un seul modèle. Nous évaluons notre approche sur deux sources de données distinctes et démontrons qu’elle surpasse les modèles de référence sur plus de 20 tâches visuelles diverses dans les deux cas.