Datum

vor 2 Jahren

Größe

751.82 KB

Organisation

Veröffentlichungs-URL

mp.weixin.qq.com

Paper-URL

arxiv.org

Tags

Natürliche Sprachverarbeitung

Der FewJoint-Benchmark-Datensatz ist eine Sammlung aus echten Benutzerkorpusse und von Experten erstellten Korpusse der offenen iFlytek AIUI-Plattform (im Verhältnis von ungefähr 3:7). Es enthält 59 echte Domänen und ist derzeit einer der Konversationsdatensätze mit den meisten Domänen. Dieser Datensatz vermeidet die Konstruktion simulierter Domänen und eignet sich sehr gut für kleine Stichproben und Meta-Lernmethoden. Basierend auf diesem Datensatz organisierte das Forschungsteam auch die SMP 2020-Bewertung des Sprachverständnisses anhand kleiner Konversationsbeispiele. Im Gegensatz zu früheren NLP-Studien mit kleinen Stichproben, bei denen einfache, künstlich erstellte Textklassifizierungsaufgaben verwendet wurden, führte das Forschungsteam eine Aufgabe zum Verständnis von Konversationssprachen ein, die 59 reale Domänen abdeckte. Neben der einfachen Textklassifizierung umfasst die SLU-Aufgabe auch die Sequenzkennzeichnung und das gemeinsame Lernen mehrerer Aufgaben.Diese fortgeschritteneren und realistischeren Aufgaben ermöglichen es FewJoint, die Schwierigkeit und Komplexität realer NLP-Aufgaben besser widerzuspiegeln als bestehende einfache Textklassifizierungsaufgaben. Der FewJoint-Benchmark-Datensatz weist die folgenden Hauptfunktionen auf:

Es enthält 59 echte Domänen und ist einer der Konversationsdatensätze mit den meisten Domänen. Dadurch kann die Konstruktion simulierter Domänen vermieden werden und es eignet sich sehr gut für die Auswertung kleiner Stichproben und Meta-Lernmethoden.
Es spiegelt die Schwierigkeit echter NLP-Aufgaben wider und überwindet die Einschränkung, dass das aktuelle Few-Shot-NLP nur einfache künstliche Aufgaben wie die Textklassifizierung ausführen kann.
Vollständig offen und bietet einen benutzerfreundlichen NLP Few-Shot-Learning-Benchmark.
Bietet eine unterstützende NLP-Few-Shot-Learning-Tool-Plattform – MetaDialog, die Experimente erleichtert und schnell durchführt. Datensatzkonstruktion Das Forschungsteam wählte 59 echte Konversationsroboter-APIs auf der offenen Plattform iFlytek AIUI als Forschungsbereiche aus. Die Quellen des Benutzerkorpus bestehen hauptsächlich aus zwei Teilen: (1) Daten von realen Nutzern der Plattform (2) Von Fachexperten erstelltes Korpus Das Datenverhältnis der beiden Datenquellen beträgt etwa 3:7. Nachdem jedes Datenelement mit Benutzerabsicht und semantischen Slots annotiert wurde, teilte das Forschungsteam alle 59 Domänen in drei Teile auf: 45 Trainingsdomänen, 5 Entwicklungsdomänen und 9 Testdomänen. Restrukturieren Sie die Test- und Entwicklungsdomänendaten in eine Lernform mit wenigen Beispielen: Jede Domäne enthält einen künstlich erstellten K-Shot-Supportsatz und einen Abfragesatz, der aus den verbleibenden Daten besteht.

FewJoint.torrent

Seeding 2Wird heruntergeladen 0Abgeschlossen 287Gesamtdownloads 637

FewJoint/
- README.md
  3.45 KB
- README.txt
  6.9 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 2 Jahren

Größe

751.82 KB

Organisation

Veröffentlichungs-URL

mp.weixin.qq.com

Paper-URL

arxiv.org

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

vor 2 Monaten

Klinischer Datensatz Zu Lungenkrebs

vor 2 Monaten

Open-RL Inferenzproblem-Datensatz

vor 4 Monaten

CL-bench Context Learning Evaluation Benchmark-Datensatz

vor 4 Monaten

Delhi-Verschmutzungs-AQI-Datensatz

vor 5 Monaten

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

vor 6 Monaten

MCIF Multimodal Cross-Language Instruction Following Dataset

vor 6 Monaten

TxT360-3efforts Multi-Task Inference Dataset

vor 6 Monaten

LongBench-Pro Long Context Comprehensive Evaluation Dataset

vor 6 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

FewJoint – Benchmark-Datensatz Für Gemeinsames Lernen Mit Wenigen Beispielen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

FewJoint – Benchmark-Datensatz Für Gemeinsames Lernen Mit Wenigen Beispielen

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Klinischer Datensatz Zu Lungenkrebs

Open-RL Inferenzproblem-Datensatz

CL-bench Context Learning Evaluation Benchmark-Datensatz

Delhi-Verschmutzungs-AQI-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

FewJoint – Benchmark-Datensatz Für Gemeinsames Lernen Mit Wenigen Beispielen

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Klinischer Datensatz Zu Lungenkrebs

Open-RL Inferenzproblem-Datensatz

CL-bench Context Learning Evaluation Benchmark-Datensatz

Delhi-Verschmutzungs-AQI-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Klinischer Datensatz Zu Lungenkrebs

Open-RL Inferenzproblem-Datensatz

CL-bench Context Learning Evaluation Benchmark-Datensatz

Delhi-Verschmutzungs-AQI-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Klinischer Datensatz Zu Lungenkrebs

Open-RL Inferenzproblem-Datensatz

CL-bench Context Learning Evaluation Benchmark-Datensatz

Delhi-Verschmutzungs-AQI-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset