Shifts: Ein Datensatz realer Verteilungsschiebungen über mehrere große Aufgaben

Es wurde erhebliche Forschung zu Methoden zur Verbesserung der Robustheit gegenüber Verteilungsshifts und zur Abschätzung von Unsicherheiten durchgeführt. Im Gegensatz dazu existiert nur ein begrenzter Forschungsbeitrag, der sich mit der Entwicklung standardisierter Datensätze und Benchmarks zur Bewertung dieser Ansätze befasst. Zudem basieren die meisten Arbeiten zur Unsicherheitsabschätzung und Robustheit auf neuen Techniken, die auf kleinskaligen Regressions- oder Bildklassifizierungsaufgaben aufbauen. Viele praktisch relevante Aufgaben weisen jedoch unterschiedliche Modalitäten auf, wie beispielsweise tabellarische Daten, Audio, Text oder Sensordaten, die erhebliche Herausforderungen bei der Regressions- und diskreten oder kontinuierlichen strukturierten Vorhersage mit sich bringen. Angesichts des derzeitigen Standes der Forschung ist daher ein standardisierter, großskaliger Datensatz an Aufgaben aus einer Vielzahl von Modalitäten, die durch Verteilungsshifts beeinflusst sind, notwendig. Dies würde Forschern ermöglichen, die Vielzahl kürzlich entwickelter Methoden zur Quantifizierung von Unsicherheiten sowie Bewertungskriterien und State-of-the-Art-Baselines sinnvoll zu evaluieren. In dieser Arbeit präsentieren wir den Shifts-Datensatz zur Bewertung von Unsicherheitsschätzungen und Robustheit gegenüber Verteilungsshifts. Der Datensatz wurde aus industriellen Quellen und Dienstleistungen gesammelt und besteht aus drei Aufgaben, wobei jede einer spezifischen Datensmodality entspricht: tabellarische Wettervorhersage, maschinelle Übersetzung und Vorhersage der Bewegung von selbstfahrenden Fahrzeugen (SDC). Alle diese Datensmodalitäten und Aufgaben sind realen, „in-the-wild“-Verteilungsshifts ausgesetzt und stellen interessante Herausforderungen hinsichtlich der Unsicherheitsabschätzung dar. In dieser Arbeit geben wir eine detaillierte Beschreibung des Datensatzes sowie Baseline-Ergebnisse für alle Aufgaben an.