Grand Corpus Conversationnel Chinois Propre Du LCCC
Date
Taille
URL de publication
Le LCCC (corpus de conversations chinoises nettoyées à grande échelle) a été publié par l'Université Tsinghua et le Samsung China Research Institute en 2020.
L'ensemble de données se compose principalement de deux parties : LCCC-base (6,8 millions de dialogues) et LCCC-large (12 millions de dialogues). L'équipe de recherche a conçu un processus rigoureux de filtrage des données pour garantir la qualité des données de conversation dans l'ensemble de données, qui est basé sur un ensemble de règles et un classificateur formé sur 110 000 paires de conversations annotées manuellement. Le bruit filtré par l’équipe de recherche comprend : des mots grossiers, des caractères spéciaux, des émoticônes, des phrases grammaticalement incorrectes et des conversations qui ne sont pas contextuellement pertinentes. L'ensemble de données nettoyé et les modèles pré-entraînés faciliteront la recherche sur la modélisation de conversations textuelles courtes.