FewJoint – Benchmark-Datensatz Für Gemeinsames Lernen Mit Wenigen Beispielen
Datum
Größe
Veröffentlichungs-URL
Der FewJoint-Benchmark-Datensatz ist eine Sammlung aus echten Benutzerkorpusse und von Experten erstellten Korpusse der offenen iFlytek AIUI-Plattform (im Verhältnis von ungefähr 3:7). Es enthält 59 echte Domänen und ist derzeit einer der Konversationsdatensätze mit den meisten Domänen. Dieser Datensatz vermeidet die Konstruktion simulierter Domänen und eignet sich sehr gut für kleine Stichproben und Meta-Lernmethoden.
Basierend auf diesem Datensatz organisierte das Forschungsteam auch die SMP 2020-Bewertung des Sprachverständnisses anhand kleiner Konversationsbeispiele. Im Gegensatz zu früheren NLP-Studien mit kleinen Stichproben, bei denen einfache, künstlich erstellte Textklassifizierungsaufgaben verwendet wurden, führte das Forschungsteam eine Aufgabe zum Verständnis von Konversationssprachen ein, die 59 reale Domänen abdeckte. Neben der einfachen Textklassifizierung umfasst die SLU-Aufgabe auch die Sequenzkennzeichnung und das gemeinsame Lernen mehrerer Aufgaben.Diese fortgeschritteneren und realistischeren Aufgaben ermöglichen es FewJoint, die Schwierigkeit und Komplexität realer NLP-Aufgaben besser widerzuspiegeln als bestehende einfache Textklassifizierungsaufgaben.
Der FewJoint-Benchmark-Datensatz weist die folgenden Hauptfunktionen auf:
- Es enthält 59 echte Domänen und ist einer der Konversationsdatensätze mit den meisten Domänen. Dadurch kann die Konstruktion simulierter Domänen vermieden werden und es eignet sich sehr gut für die Auswertung kleiner Stichproben und Meta-Lernmethoden.
- Es spiegelt die Schwierigkeit echter NLP-Aufgaben wider und überwindet die Einschränkung, dass das aktuelle Few-Shot-NLP nur einfache künstliche Aufgaben wie die Textklassifizierung ausführen kann.
- Vollständig offen und bietet einen benutzerfreundlichen NLP Few-Shot-Learning-Benchmark.
- Bietet eine unterstützende NLP-Few-Shot-Learning-Tool-Plattform – MetaDialog, die Experimente erleichtert und schnell durchführt.
Datensatzkonstruktion
Das Forschungsteam wählte 59 echte Konversationsroboter-APIs auf der offenen Plattform iFlytek AIUI als Forschungsbereiche aus. Die Quellen des Benutzerkorpus bestehen hauptsächlich aus zwei Teilen:
(1) Daten von realen Nutzern der Plattform
(2) Von Fachexperten erstelltes Korpus
Das Datenverhältnis der beiden Datenquellen beträgt etwa 3:7. Nachdem jedes Datenelement mit Benutzerabsicht und semantischen Slots annotiert wurde, teilte das Forschungsteam alle 59 Domänen in drei Teile auf: 45 Trainingsdomänen, 5 Entwicklungsdomänen und 9 Testdomänen. Restrukturieren Sie die Test- und Entwicklungsdomänendaten in eine Lernform mit wenigen Beispielen: Jede Domäne enthält einen künstlich erstellten K-Shot-Supportsatz und einen Abfragesatz, der aus den verbleibenden Daten besteht.