Lernen von end-to-end-Patientendarstellungen durch selbstüberwachtes Kovariatenbalancieren zur kausalen Behandlungseffektabschätzung
{Beau Norgeot Jingpu Shi Stefanos Giampanis Gino Tesei}
Abstract
Ein kausaler Effekt kann als Vergleich der Ergebnisse definiert werden, die aus zwei oder mehr alternativen Handlungen resultieren, wobei lediglich ein einziges Paar aus Handlung und Ergebnis tatsächlich beobachtet wird. In der Gesundheitsforschung stellt der randomisierte kontrollierte Versuch (RCT) die Goldstandard-Methode zur Messung kausaler Effekte dar, bei dem eine Zielgruppe explizit definiert wird und jeder Studienproband zufällig der Behandlungs- oder Kontrollgruppe zugeordnet wird. Das große Potenzial, aus kausalen Beziehungen handlungsleitende Erkenntnisse abzuleiten, hat zu einer wachsenden Zahl von Forschungsarbeiten im Bereich des maschinellen Lernens geführt, die kausale Effizienzschätzer auf beobachtungsdatenbasierte Daten in den Bereichen Gesundheitswesen, Bildung und Ökonomie anwenden. Der wesentliche Unterschied zwischen kausalen Studien, die auf Beobachtungsdaten basieren, und RCTs besteht darin, dass bei Beobachtungsdaten die Studie nach der Behandlung stattfindet und somit kein Einfluss auf die Zuweisung zur Behandlung besteht. Dies kann zu erheblichen Unterschieden in den Verteilungen der Kovariaten zwischen Behandlungs- und Kontrollgruppen führen, was den Vergleich kausaler Effekte verfälscht und unzuverlässig macht. Klassische Ansätze haben dieses Problem schrittweise angegangen, indem zunächst die Behandlungszuweisung und danach separat der Behandlungseffekt vorhergesagt wurden. Neuere Arbeiten haben Teile dieser Ansätze auf eine neue Familie von Repräsentationslernalgorithmen erweitert und gezeigt, dass die obere Schranke des erwarteten Schätzfehlers für den Behandlungseffekt von zwei Faktoren bestimmt wird: der Generalisierungsfehler der Repräsentation hinsichtlich der Ausgangsvariablen und dem Abstand zwischen Behandlungs- und Kontrollverteilungen, der durch die Repräsentation induziert wird. Um eine minimale Diskrepanz bei der Lernung solcher Verteilungen zu erreichen, schlagen wir in dieser Arbeit ein spezifisches, selbstüberwachtes, automatisch ausbalancierendes Optimierungsziel vor. Experimente an realen und Benchmark-Datensätzen zeigten, dass unsere Methode konsistenter weniger verzerrte Schätzungen liefert als bisher veröffentlichte State-of-the-Art-Methoden. Wir demonstrieren, dass die Reduktion des Fehlers direkt auf die Fähigkeit zurückzuführen ist, Repräsentationen zu lernen, die diese Diskrepanz explizit minimieren; darüber hinaus zeigen wir, dass unsere Methode im Fall von Verletzungen der Positivitätsannahme – eine häufige Situation bei Beobachtungsdaten – signifikant besser abschneidet als die bisher beste Methode. Durch das Lernen von Repräsentationen, die ähnliche Verteilungen der Behandlungs- und Kontrollgruppen induzieren, liefern wir somit Evidenz für die Hypothese der Fehlerschranke aufgrund von Verteilungsunterschieden und stellen ein neues State-of-the-Art-Modell für die Schätzung kausaler Effekte vor.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| causal-inference-on-ihdp | BCAUSS | Average Treatment Effect Error: 0.15 |
| causal-inference-on-jobs | BCAUSS | Average Treatment Effect on the Treated Error: 0.05 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.