WILDS: Eine Benchmark für Veränderungen der Verteilung in natürlicher Umgebung

Verteilungsverschiebungen – also Situationen, in denen die Trainingsverteilung von der Testverteilung abweicht – können die Genauigkeit von maschinellen Lernsystemen erheblich beeinträchtigen, die in der Praxis eingesetzt werden. Trotz ihrer Häufigkeit in realen Anwendungen sind solche Verteilungsverschiebungen in den heute weit verbreiteten Datensätzen der ML-Community unterrepräsentiert. Um diese Lücke zu schließen, stellen wir WILDS vor, einen sorgfältig zusammengestellten Benchmark aus 10 Datensätzen, die eine Vielzahl von Verteilungsverschiebungen widerspiegeln, die in realen Anwendungen natürlicherweise auftreten, etwa Verschiebungen zwischen Krankenhäusern bei der Tumordiagnose; zwischen Kamerafallen bei der Wildtierüberwachung; oder über Zeit und Ort bei Satellitenbildern und Armutskartierungen. Auf jedem dieser Datensätze zeigen wir, dass herkömmliche Trainingsansätze eine deutlich schlechtere Leistung außerhalb der Verteilung (out-of-distribution) im Vergleich zur Leistung innerhalb der Verteilung (in-distribution) erzielen. Dieser Leistungsunterschied bleibt auch bei Modellen erhalten, die mit bestehenden Methoden zur Bewältigung von Verteilungsverschiebungen trainiert wurden, was die Notwendigkeit neuer Trainingsmethoden unterstreicht, die robustere Modelle für die in der Praxis auftretenden Verteilungsverschiebungen ermöglichen. Um die Entwicklung solcher Methoden zu fördern, stellen wir ein Open-Source-Paket bereit, das das Laden der Datensätze automatisiert, Standardmodellarchitekturen und Hyperparameter enthält und die Evaluation standardisiert. Der Quellcode und die Ranglisten sind unter https://wilds.stanford.edu verfügbar.