LCCC Großes, Sauberes Chinesisches Konversationskorpus
Datum
Größe
Veröffentlichungs-URL
Kategorien
LCCC (Large-scale Cleaned Chinese Conversation corpus) wurde 2020 von der Tsinghua-Universität und dem Samsung China Research Institute veröffentlicht.
Der Datensatz besteht hauptsächlich aus zwei Teilen: LCCC-Basis (6,8 Millionen Dialoge) und LCCC-groß (12 Millionen Dialoge). Um die Qualität der Konversationsdaten im Datensatz sicherzustellen, hat das Forschungsteam einen strengen Datenfilterprozess entwickelt, der auf einem Regelsatz und einem Klassifikator basiert, der anhand von 110.000 manuell annotierten Konversationspaaren trainiert wurde. Zu den vom Forschungsteam gefilterten Störgeräuschen zählen: Schimpfwörter, Sonderzeichen, Emoticons, grammatikalisch falsche Sätze und Gespräche ohne inhaltlichen Bezug. Der bereinigte Datensatz und die vortrainierten Modelle erleichtern die Erforschung der Modellierung kurzer Textkonversationen.