Invariante Risikominimierungs-Spiele

Das herkömmliche Risikominimierungsparadigma des maschinellen Lernens ist anfällig, wenn es in Umgebungen betrieben wird, deren Testverteilungen von der Trainingsverteilung abweichen, insbesondere aufgrund von spuriösen Korrelationen. Durch das Training auf Daten aus mehreren Umgebungen und die Suche nach invarianten Prädiktoren kann der Einfluss spuriöser Merkmale reduziert werden, indem Modelle auf Merkmale fokussiert werden, die eine kausale Beziehung zum Zielwert aufweisen. In dieser Arbeit formulieren wir die invarianzbasierende Risikominimierung als die Bestimmung des Nash-Gleichgewichts eines Ensemble-Spiels zwischen mehreren Umgebungen. Auf diese Weise entwickeln wir einen einfachen Trainingsalgorithmus, der auf Best-Response-Dynamiken basiert und in unseren Experimenten eine vergleichbare oder sogar bessere empirische Genauigkeit mit deutlich geringerer Varianz liefert als das anspruchsvolle zweistufige Optimierungsproblem von Arjovsky et al. (2019). Ein zentraler theoretischer Beitrag besteht darin, zu zeigen, dass die Menge der Nash-Gleichgewichte des vorgeschlagenen Spiels für jede endliche Anzahl von Umgebungen identisch ist mit der Menge der invarianten Prädiktoren – selbst bei nichtlinearen Klassifikatoren und Transformationen. Als Folge behält unser Ansatz die Generalisierungsgarantien für eine große Klasse von Umgebungen bei, wie sie von Arjovsky et al. (2019) gezeigt wurden. Der vorgeschlagene Algorithmus ergänzt die Reihe erfolgreicher spieltheoretischer Ansätze im maschinellen Lernen, wie beispielsweise Generative Adversarial Networks.