HyperAI

FewJoint Ensemble De Données De Référence Pour L'apprentissage Conjoint À Quelques Coups

L'ensemble de données de référence FewJoint est une collection de corpus d'utilisateurs réels et de corpus construits par des experts à partir de la plate-forme ouverte iFlytek AIUI (dans un rapport d'environ 3:7). Il contient 59 domaines réels et constitue actuellement l'un des ensembles de données de conversation avec le plus de domaines. Cet ensemble de données évite la construction de domaines simulés et convient parfaitement aux petits échantillons et aux méthodes de méta-apprentissage.

Sur la base de cet ensemble de données, l'équipe de recherche a également organisé l'évaluation de la compréhension du langage conversationnel sur un petit échantillon SMP 2020. Contrairement aux études précédentes de PNL sur de petits échantillons qui utilisaient des tâches simples de classification de texte construites artificiellement, l'équipe de recherche a introduit une tâche de compréhension du langage conversationnel couvrant 59 domaines réels. En plus de la classification simple de texte, la tâche SLU couvre également l'étiquetage de séquences et l'apprentissage conjoint multitâche.Ces tâches plus avancées et réalistes permettent à FewJoint de mieux refléter la difficulté et la complexité des tâches PNL du monde réel que les tâches de classification de texte simples existantes.

L'ensemble de données de référence FewJoint présente les principales caractéristiques suivantes :

  • Il contient 59 domaines réels et constitue l'un des ensembles de données de conversation avec le plus de domaines. Il peut éviter de construire des domaines simulés et est très adapté à l’évaluation de petits échantillons et de méthodes de méta-apprentissage.
  • Il reflète la difficulté des tâches réelles de PNL et brise la limitation selon laquelle le PNL actuel à quelques coups ne peut effectuer que des tâches artificielles simples telles que la classification de texte.
  • Entièrement ouvert et fournit un benchmark d'apprentissage PNL facile à utiliser.
  • Fournit une plate-forme d'outils d'apprentissage PNL en quelques étapes - MetaDialog, qui facilite et mène rapidement des expériences.

Construction du jeu de données

L'équipe de recherche a sélectionné 59 API de robots conversationnels réels sur la plate-forme ouverte iFlytek AIUI comme domaines de recherche. Les sources du corpus utilisateur comprennent principalement deux parties :

(1) Données provenant d'utilisateurs réels de la plateforme

(2) Corpus construit par des experts du domaine

Le rapport de données des deux sources de données est d’environ 3:7. Après avoir annoté chaque élément de données avec l'intention de l'utilisateur et les emplacements sémantiques, l'équipe de recherche a divisé les 59 domaines en trois parties : 45 domaines de formation, 5 domaines de développement et 9 domaines de test. Restructurez les données du domaine de test et de développement sous une forme d'apprentissage à quelques coups : chaque domaine contient un ensemble de support K-shot construit artificiellement et un ensemble de requêtes composé des données restantes.

FewJoint.torrent
Partage 1Téléchargement 1Terminés 177Téléchargements totaux 424
  • FewJoint/
    • README.md
      3.45 KB
    • README.txt
      6.9 KB
      • data/
        • FewJoint.zip
          751.82 KB