Tasksource: Ein Datensatz-Harmonisierungsrahmen für vereinfachtes NLP-Multi-Task-Lernen und -Evaluation

Der HuggingFace Datasets Hub beherbergt Tausende von Datensätzen und bietet damit spannende Möglichkeiten für das Training und die Bewertung von Sprachmodellen. Allerdings haben Datensätze für eine bestimmte Aufgabentypologie oft unterschiedliche Schemata, was die Harmonisierung erschwert. Das Multi-Task-Training oder -Evaluation erfordert manuelle Arbeit, um die Daten in Aufgabenvorlagen zu integrieren. Mehrere Initiativen greifen dieses Problem unabhängig voneinander an, indem sie harmonisierte Datensätze veröffentlichen oder Harmonisierungscode zur Vorverarbeitung der Datensätze in ein konsistentes Format bereitstellen. Wir identifizieren Muster in früheren Vorverarbeitungsanstrengungen, wie zum Beispiel die Zuordnung von Spaltennamen und das Extrahieren spezifischer Unterfelder aus strukturierten Daten in einer Spalte. Anschließend schlagen wir ein strukturiertes Annotationsschema vor, das sicherstellt, dass unsere Annotationen vollständig sichtbar sind und nicht innerhalb von unstrukturiertem Code verborgen bleiben. Wir veröffentlichen ein Dataset-Annotationsschema sowie Dataset-Annotationen für mehr als 500 englische Aufgaben\footnote{\url{https://github.com/sileod/tasksource}}. Diese Annotationen enthalten Metadaten, wie die Namen der Spalten, die als Eingabe oder Labels für alle Datensätze verwendet werden sollen, was Zeit sparen kann bei zukünftigen Vorverarbeitungen von Datensätzen, unabhängig davon, ob unser Schema genutzt wird. Wir justieren einen Multi-Task-Textencoder auf allen TaskSource-Aufgaben ein und übertreffen in einer externen Bewertung jeden öffentlich verfügbaren Textencoder vergleichbarer Größe.