Analyse des Composantes Éparses : Un Cadre Unifié pour l'Adaptation de Domaine et la Généralisation de Domaine

Ce document traite des tâches de classification dans un domaine cible particulier où les données d'entraînement étiquetées ne sont disponibles que dans des domaines sources différents (mais liés) du domaine cible. Deux cadres étroitement liés, l'adaptation de domaine et la généralisation de domaine, s'intéressent à ces tâches, la seule différence entre ces cadres étant la disponibilité des données cibles non étiquetées : l'adaptation de domaine peut utiliser des informations non étiquetées du domaine cible, tandis que la généralisation de domaine ne le peut pas. Nous proposons Scatter Component Analysis (SCA), un algorithme rapide d'apprentissage de représentation qui peut être appliqué à la fois à l'adaptation de domaine et à la généralisation de domaine. SCA est basé sur une mesure géométrique simple, à savoir la dispersion (scatter), qui opère dans un espace de Hilbert à noyau reproduisant. SCA trouve une représentation qui équilibre entre maximiser la séparabilité des classes, minimiser le décalage entre les domaines et maximiser la séparabilité des données ; chacun de ces aspects étant quantifié par la dispersion. Le problème d'optimisation de SCA peut être réduit à un problème de valeurs propres généralisé, ce qui conduit à une solution rapide et exacte. Des expériences exhaustives sur des ensembles de données d'identification d'objets inter-domaines standard montrent que SCA est beaucoup plus rapide que plusieurs algorithmes avancés et fournit également une précision de classification avancée dans les deux cas d'adaptation et de généralisation de domaine. Nous montrons également que la dispersion peut être utilisée pour établir une borne théorique de généralisation dans le cas de l'adaptation de domaine.