HyperAIHyperAI

Command Palette

Search for a command to run...

Grand Corpus Conversationnel Chinois Propre Du LCCC

Date

il y a 2 ans

Taille

939.48 MB

Organisation

Université Tsinghua

URL de publication

github.com

URL du document

arxiv.org

Le LCCC (corpus de conversations chinoises nettoyées à grande échelle) a été publié par l'Université Tsinghua et le Samsung China Research Institute en 2020.

L'ensemble de données se compose principalement de deux parties : LCCC-base (6,8 millions de dialogues) et LCCC-large (12 millions de dialogues). L'équipe de recherche a conçu un processus rigoureux de filtrage des données pour garantir la qualité des données de conversation dans l'ensemble de données, qui est basé sur un ensemble de règles et un classificateur formé sur 110 000 paires de conversations annotées manuellement. Le bruit filtré par l’équipe de recherche comprend : des mots grossiers, des caractères spéciaux, des émoticônes, des phrases grammaticalement incorrectes et des conversations qui ne sont pas contextuellement pertinentes. L'ensemble de données nettoyé et les modèles pré-entraînés faciliteront la recherche sur la modélisation de conversations textuelles courtes.

LCCC.torrent
Seeding 1Téléchargement 0Terminé 316Total Downloads 564
  • LCCC/
    • README.md
      1.38 KB
    • README.txt
      2.76 KB
      • data/
        • lccc.zip
          939.48 MB

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp