Können Foundation Models Ihre Daten beherrschen?

Foundation Models (FMs) sind Modelle, die auf großen Korpora an Daten trainiert wurden und auf sehr großer Skala in der Lage sind, sich auf neue Aufgaben zu verallgemeinern, ohne dass eine auf die spezifische Aufgabe abgestimmte Feinabstimmung erforderlich ist. Während diese Modelle weiter an Größe zunehmen, treiben Innovationen kontinuierlich die Grenzen dessen voran, was diese Modelle in Bezug auf Sprach- und Bildaufgaben leisten können. In diesem Paper wird ein bisher wenig erforschtes Gebiet von FMs untersucht: klassische Datenaufgaben wie Datenbereinigung und -integration. Als Proof-of-Concept formulieren wir fünf Aufgaben zur Datenbereinigung und -integration als Prompting-Aufgaben und evaluieren die Leistung von FMs auf diesen Aufgaben. Wir stellen fest, dass große FMs eine hervorragende Verallgemeinerungsfähigkeit aufweisen und selbst bei Aufgaben der Datenbereinigung und -integration state-of-the-art (SoTA)-Leistung erzielen, obwohl sie nicht für diese spezifischen Datenaufgaben trainiert wurden. Wir identifizieren dabei bestimmte Forschungsherausforderungen und -chancen, die sich aus diesen Modellen ergeben, darunter Herausforderungen im Umgang mit privaten und domainspezifischen Daten sowie Chancen, Datenverwaltungssysteme für Nicht-Experten zugänglicher zu machen. Unsere Code-Implementierungen und Experimente stellen wir öffentlich unter folgender URL zur Verfügung: https://github.com/HazyResearch/fm_data_tasks.