HyperAI

Grand Corpus Conversationnel Chinois Propre Du LCCC

Date

il y a un an

Taille

939.48 MB

Organisation

Université Tsinghua

URL de publication

github.com

Le LCCC (corpus de conversations chinoises nettoyées à grande échelle) a été publié par l'Université Tsinghua et le Samsung China Research Institute en 2020.

L'ensemble de données se compose principalement de deux parties : LCCC-base (6,8 millions de dialogues) et LCCC-large (12 millions de dialogues). L'équipe de recherche a conçu un processus rigoureux de filtrage des données pour garantir la qualité des données de conversation dans l'ensemble de données, qui est basé sur un ensemble de règles et un classificateur formé sur 110 000 paires de conversations annotées manuellement. Le bruit filtré par l’équipe de recherche comprend : des mots grossiers, des caractères spéciaux, des émoticônes, des phrases grammaticalement incorrectes et des conversations qui ne sont pas contextuellement pertinentes. L'ensemble de données nettoyé et les modèles pré-entraînés faciliteront la recherche sur la modélisation de conversations textuelles courtes.

LCCC.torrent
Partage 2Téléchargement 1Terminés 129Téléchargements totaux 305
  • LCCC/
    • README.md
      1.38 KB
    • README.txt
      2.76 KB
      • data/
        • lccc.zip
          939.48 MB