vor 8 Monaten

Zusammenfassung

Der HuggingFace Datasets Hub beherbergt Tausende von Datensätzen und bietet damit spannende Möglichkeiten für das Training und die Bewertung von Sprachmodellen. Allerdings haben Datensätze für eine bestimmte Aufgabentypologie oft unterschiedliche Schemata, was die Harmonisierung erschwert. Das Multi-Task-Training oder -Evaluation erfordert manuelle Arbeit, um die Daten in Aufgabenvorlagen zu integrieren. Mehrere Initiativen greifen dieses Problem unabhängig voneinander an, indem sie harmonisierte Datensätze veröffentlichen oder Harmonisierungscode zur Vorverarbeitung der Datensätze in ein konsistentes Format bereitstellen. Wir identifizieren Muster in früheren Vorverarbeitungsanstrengungen, wie zum Beispiel die Zuordnung von Spaltennamen und das Extrahieren spezifischer Unterfelder aus strukturierten Daten in einer Spalte. Anschließend schlagen wir ein strukturiertes Annotationsschema vor, das sicherstellt, dass unsere Annotationen vollständig sichtbar sind und nicht innerhalb von unstrukturiertem Code verborgen bleiben. Wir veröffentlichen ein Dataset-Annotationsschema sowie Dataset-Annotationen für mehr als 500 englische Aufgaben\footnote{\url{https://github.com/sileod/tasksource}}. Diese Annotationen enthalten Metadaten, wie die Namen der Spalten, die als Eingabe oder Labels für alle Datensätze verwendet werden sollen, was Zeit sparen kann bei zukünftigen Vorverarbeitungen von Datensätzen, unabhängig davon, ob unser Schema genutzt wird. Wir justieren einen Multi-Task-Textencoder auf allen TaskSource-Aufgaben ein und übertreffen in einer externen Bewertung jeden öffentlich verfügbaren Textencoder vergleichbarer Größe.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multi-Task-Lernen

Natürliche Sprachverarbeitung

Überwachtes Feinabstimmen

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Damien Sileo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multi-Task-Lernen

Natürliche Sprachverarbeitung

Überwachtes Feinabstimmen

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Damien Sileo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Tasksource: Ein Datensatz-Harmonisierungsrahmen für vereinfachtes NLP-Multi-Task-Lernen und -Evaluation

Damien Sileo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Tasksource: Ein Datensatz-Harmonisierungsrahmen für vereinfachtes NLP-Multi-Task-Lernen und -Evaluation

Damien Sileo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Tasksource: Ein Datensatz-Harmonisierungsrahmen für vereinfachtes NLP-Multi-Task-Lernen und -Evaluation

Damien Sileo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters