Estimation de l'effet du traitement individuel : bornes de généralisation et algorithmes

Il existe un intérêt considérable pour l'application de l'apprentissage automatique aux problèmes d'inférence causale dans des domaines tels que la santé, l'économie et l'éducation. En particulier, l'inférence causale au niveau individuel a des applications importantes comme la médecine de précision. Nous présentons une nouvelle analyse théorique et une famille d'algorithmes pour prédire l'effet du traitement au niveau individuel (ITE) à partir de données observationnelles, sous l'hypothèse connue sous le nom de fortes ignorabilité. Ces algorithmes apprennent une représentation « équilibrée » telle que les distributions induites par les groupes traités et non traités soient similaires. Nous proposons une borne d'erreur de généralisation nouvelle, simple et intuitive, montrant que l'erreur estimée moyenne de l'ITE d'une représentation est limitée par la somme de l'erreur de généralisation standard de cette représentation et de la distance entre les distributions induites par les groupes traités et non traités. Nous utilisons des métriques de probabilité intégrales pour mesurer les distances entre les distributions, dérivant des bornes explicites pour les distances de Wasserstein et de Divergence Moyenne Maximale (MMD). Des expériences sur des données réelles et simulées montrent que les nouveaux algorithmes correspondent ou surpassent l'état de l'art.