HyperAIHyperAI
vor 17 Tagen

WILDS: Eine Benchmark für Veränderungen der Verteilung in natürlicher Umgebung

Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, Tony Lee, Etienne David, Ian Stavness, Wei Guo, Berton A. Earnshaw, Imran S. Haque, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma Pierson, Sergey Levine, Chelsea Finn, Percy Liang
WILDS: Eine Benchmark für Veränderungen der Verteilung in natürlicher Umgebung
Abstract

Verteilungsverschiebungen – also Situationen, in denen die Trainingsverteilung von der Testverteilung abweicht – können die Genauigkeit von maschinellen Lernsystemen erheblich beeinträchtigen, die in der Praxis eingesetzt werden. Trotz ihrer Häufigkeit in realen Anwendungen sind solche Verteilungsverschiebungen in den heute weit verbreiteten Datensätzen der ML-Community unterrepräsentiert. Um diese Lücke zu schließen, stellen wir WILDS vor, einen sorgfältig zusammengestellten Benchmark aus 10 Datensätzen, die eine Vielzahl von Verteilungsverschiebungen widerspiegeln, die in realen Anwendungen natürlicherweise auftreten, etwa Verschiebungen zwischen Krankenhäusern bei der Tumordiagnose; zwischen Kamerafallen bei der Wildtierüberwachung; oder über Zeit und Ort bei Satellitenbildern und Armutskartierungen. Auf jedem dieser Datensätze zeigen wir, dass herkömmliche Trainingsansätze eine deutlich schlechtere Leistung außerhalb der Verteilung (out-of-distribution) im Vergleich zur Leistung innerhalb der Verteilung (in-distribution) erzielen. Dieser Leistungsunterschied bleibt auch bei Modellen erhalten, die mit bestehenden Methoden zur Bewältigung von Verteilungsverschiebungen trainiert wurden, was die Notwendigkeit neuer Trainingsmethoden unterstreicht, die robustere Modelle für die in der Praxis auftretenden Verteilungsverschiebungen ermöglichen. Um die Entwicklung solcher Methoden zu fördern, stellen wir ein Open-Source-Paket bereit, das das Laden der Datensätze automatisiert, Standardmodellarchitekturen und Hyperparameter enthält und die Evaluation standardisiert. Der Quellcode und die Ranglisten sind unter https://wilds.stanford.edu verfügbar.