HyperAI

FewJoint – Benchmark-Datensatz Für Gemeinsames Lernen Mit Wenigen Beispielen

Der FewJoint-Benchmark-Datensatz ist eine Sammlung aus echten Benutzerkorpusse und von Experten erstellten Korpusse der offenen iFlytek AIUI-Plattform (im Verhältnis von ungefähr 3:7). Es enthält 59 echte Domänen und ist derzeit einer der Konversationsdatensätze mit den meisten Domänen. Dieser Datensatz vermeidet die Konstruktion simulierter Domänen und eignet sich sehr gut für kleine Stichproben und Meta-Lernmethoden.

Basierend auf diesem Datensatz organisierte das Forschungsteam auch die SMP 2020-Bewertung des Sprachverständnisses anhand kleiner Konversationsbeispiele. Im Gegensatz zu früheren NLP-Studien mit kleinen Stichproben, bei denen einfache, künstlich erstellte Textklassifizierungsaufgaben verwendet wurden, führte das Forschungsteam eine Aufgabe zum Verständnis von Konversationssprachen ein, die 59 reale Domänen abdeckte. Neben der einfachen Textklassifizierung umfasst die SLU-Aufgabe auch die Sequenzkennzeichnung und das gemeinsame Lernen mehrerer Aufgaben.Diese fortgeschritteneren und realistischeren Aufgaben ermöglichen es FewJoint, die Schwierigkeit und Komplexität realer NLP-Aufgaben besser widerzuspiegeln als bestehende einfache Textklassifizierungsaufgaben.

Der FewJoint-Benchmark-Datensatz weist die folgenden Hauptfunktionen auf:

  • Es enthält 59 echte Domänen und ist einer der Konversationsdatensätze mit den meisten Domänen. Dadurch kann die Konstruktion simulierter Domänen vermieden werden und es eignet sich sehr gut für die Auswertung kleiner Stichproben und Meta-Lernmethoden.
  • Es spiegelt die Schwierigkeit echter NLP-Aufgaben wider und überwindet die Einschränkung, dass das aktuelle Few-Shot-NLP nur einfache künstliche Aufgaben wie die Textklassifizierung ausführen kann.
  • Vollständig offen und bietet einen benutzerfreundlichen NLP Few-Shot-Learning-Benchmark.
  • Bietet eine unterstützende NLP-Few-Shot-Learning-Tool-Plattform – MetaDialog, die Experimente erleichtert und schnell durchführt.

Datensatzkonstruktion

Das Forschungsteam wählte 59 echte Konversationsroboter-APIs auf der offenen Plattform iFlytek AIUI als Forschungsbereiche aus. Die Quellen des Benutzerkorpus bestehen hauptsächlich aus zwei Teilen:

(1) Daten von realen Nutzern der Plattform

(2) Von Fachexperten erstelltes Korpus

Das Datenverhältnis der beiden Datenquellen beträgt etwa 3:7. Nachdem jedes Datenelement mit Benutzerabsicht und semantischen Slots annotiert wurde, teilte das Forschungsteam alle 59 Domänen in drei Teile auf: 45 Trainingsdomänen, 5 Entwicklungsdomänen und 9 Testdomänen. Restrukturieren Sie die Test- und Entwicklungsdomänendaten in eine Lernform mit wenigen Beispielen: Jede Domäne enthält einen künstlich erstellten K-Shot-Supportsatz und einen Abfragesatz, der aus den verbleibenden Daten besteht.

FewJoint.torrent
Seeding 1Herunterladen 1Abgeschlossen 162Gesamtdownloads 405
  • FewJoint/
    • README.md
      3.45 KB
    • README.txt
      6.9 KB
      • data/
        • FewJoint.zip
          751.82 KB