HyperAIHyperAI

Command Palette

Search for a command to run...

Tasksource: Ein Datensatz-Harmonisierungsrahmen für vereinfachtes NLP-Multi-Task-Lernen und -Evaluation

Damien Sileo

Zusammenfassung

Der HuggingFace Datasets Hub beherbergt Tausende von Datensätzen und bietet damit spannende Möglichkeiten für das Training und die Bewertung von Sprachmodellen. Allerdings haben Datensätze für eine bestimmte Aufgabentypologie oft unterschiedliche Schemata, was die Harmonisierung erschwert. Das Multi-Task-Training oder -Evaluation erfordert manuelle Arbeit, um die Daten in Aufgabenvorlagen zu integrieren. Mehrere Initiativen greifen dieses Problem unabhängig voneinander an, indem sie harmonisierte Datensätze veröffentlichen oder Harmonisierungscode zur Vorverarbeitung der Datensätze in ein konsistentes Format bereitstellen. Wir identifizieren Muster in früheren Vorverarbeitungsanstrengungen, wie zum Beispiel die Zuordnung von Spaltennamen und das Extrahieren spezifischer Unterfelder aus strukturierten Daten in einer Spalte. Anschließend schlagen wir ein strukturiertes Annotationsschema vor, das sicherstellt, dass unsere Annotationen vollständig sichtbar sind und nicht innerhalb von unstrukturiertem Code verborgen bleiben. Wir veröffentlichen ein Dataset-Annotationsschema sowie Dataset-Annotationen für mehr als 500 englische Aufgaben\footnote{\url{https://github.com/sileod/tasksource}}. Diese Annotationen enthalten Metadaten, wie die Namen der Spalten, die als Eingabe oder Labels für alle Datensätze verwendet werden sollen, was Zeit sparen kann bei zukünftigen Vorverarbeitungen von Datensätzen, unabhängig davon, ob unser Schema genutzt wird. Wir justieren einen Multi-Task-Textencoder auf allen TaskSource-Aufgaben ein und übertreffen in einer externen Bewertung jeden öffentlich verfügbaren Textencoder vergleichbarer Größe.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp