Généralisation de domaine à l'aide de l'appariement causal

Dans la littérature sur la généralisation de domaine, un objectif courant est d'apprendre des représentations indépendantes du domaine après avoir conditionné sur l'étiquette de classe. Nous montrons que cet objectif n'est pas suffisant : il existe des contre-exemples où un modèle échoue à se généraliser à des domaines inconnus même après avoir satisfait l'invariance de domaine conditionnelle à la classe. Nous formalisons cette observation à travers un modèle causal structurel et soulignons l'importance de modéliser les variations intra-classe pour la généralisation. Plus précisément, les classes contiennent des objets qui caractérisent des caractéristiques causales spécifiques, et les domaines peuvent être interprétés comme des interventions sur ces objets qui modifient les caractéristiques non causales. Nous mettons en lumière une condition alternative : les entrées entre différents domaines devraient avoir la même représentation si elles sont dérivées du même objet. Sur la base de cet objectif, nous proposons des algorithmes basés sur le couplage lorsque les objets de base sont observés (par exemple, par augmentation de données) et approchons l'objectif lorsque les objets ne sont pas observés (MatchDG). Nos algorithmes simples basés sur le couplage sont compétitifs par rapport aux travaux antérieurs en termes de précision hors domaine pour les jeux de données MNIST tourné, Fashion-MNIST, PACS et Chest-Xray. Notre méthode MatchDG récupère également les correspondances d'objets véritables : sur MNIST et Fashion-MNIST, les meilleures 10 correspondances issues de MatchDG présentent plus de 50 % d'overlap avec les correspondances véritables.