HyperAIHyperAI

Command Palette

Search for a command to run...

LCCC Großes, Sauberes Chinesisches Konversationskorpus

Datum

vor 2 Jahren

Größe

939.48 MB

Organisation

Tsinghua-Universität

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

LCCC (Large-scale Cleaned Chinese Conversation corpus) wurde 2020 von der Tsinghua-Universität und dem Samsung China Research Institute veröffentlicht.

Der Datensatz besteht hauptsächlich aus zwei Teilen: LCCC-Basis (6,8 Millionen Dialoge) und LCCC-groß (12 Millionen Dialoge). Um die Qualität der Konversationsdaten im Datensatz sicherzustellen, hat das Forschungsteam einen strengen Datenfilterprozess entwickelt, der auf einem Regelsatz und einem Klassifikator basiert, der anhand von 110.000 manuell annotierten Konversationspaaren trainiert wurde. Zu den vom Forschungsteam gefilterten Störgeräuschen zählen: Schimpfwörter, Sonderzeichen, Emoticons, grammatikalisch falsche Sätze und Gespräche ohne inhaltlichen Bezug. Der bereinigte Datensatz und die vortrainierten Modelle erleichtern die Erforschung der Modellierung kurzer Textkonversationen.

LCCC.torrent
Seeding 1Wird heruntergeladen 0Abgeschlossen 316Gesamtdownloads 564
  • LCCC/
    • README.md
      1.38 KB
    • README.txt
      2.76 KB
      • data/
        • lccc.zip
          939.48 MB

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LCCC Großes, Sauberes Chinesisches Konversationskorpus | Datensätze | HyperAI