Adaptation de domaine en ensemble ouvert : borne théorique et algorithme

L'objectif de l'adaptation non supervisée de domaine est d'exploiter les connaissances d'un domaine étiqueté (source) pour améliorer les performances d'apprentissage d'un modèle dans un domaine non étiqueté (cible) — la stratégie de base consistant à atténuer les effets des disparités entre les deux distributions. La plupart des algorithmes existants ne peuvent traiter que l'adaptation non supervisée de domaine fermé (ANSDF), c'est-à-dire un cas où l'on suppose que les domaines source et cible partagent le même ensemble d'étiquettes. Dans cet article, nous abordons un cadre plus complexe mais réaliste : l'adaptation non supervisée de domaine ouvert (ANSDO), où le domaine cible comporte des classes inconnues qui n'existent pas dans le domaine source. Il s'agit de la première étude à fournir une borne d'apprentissage pour l'adaptation de domaine ouvert, ce que nous faisons en investiguant théoriquement le risque du classifieur cible sur les classes inconnues. La borne d'apprentissage proposée comporte un terme particulier, appelé différence d'ensemble ouvert, qui reflète le risque du classifieur cible sur les classes inconnues. De plus, nous présentons un nouvel algorithme non supervisé pour l'adaptation de domaine ouvert, guidé par la théorie et nommé alignement de distribution avec différence ouverte (ADDO), basé sur la régularisation de cette borne de différence ouverte. Les expériences menées sur plusieurs jeux de données de référence montrent une performance supérieure de la méthode ANSDO proposée par rapport aux méthodes les plus avancées décrites dans la littérature.