Datum

vor 2 Jahren

Größe

939.48 MB

Organisation

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Tags

Natürliche Sprachverarbeitung

LCCC (Large-scale Cleaned Chinese Conversation corpus) wurde 2020 von der Tsinghua-Universität und dem Samsung China Research Institute veröffentlicht. Der Datensatz besteht hauptsächlich aus zwei Teilen: LCCC-Basis (6,8 Millionen Dialoge) und LCCC-groß (12 Millionen Dialoge). Um die Qualität der Konversationsdaten im Datensatz sicherzustellen, hat das Forschungsteam einen strengen Datenfilterprozess entwickelt, der auf einem Regelsatz und einem Klassifikator basiert, der anhand von 110.000 manuell annotierten Konversationspaaren trainiert wurde. Zu den vom Forschungsteam gefilterten Störgeräuschen zählen: Schimpfwörter, Sonderzeichen, Emoticons, grammatikalisch falsche Sätze und Gespräche ohne inhaltlichen Bezug. Der bereinigte Datensatz und die vortrainierten Modelle erleichtern die Erforschung der Modellierung kurzer Textkonversationen.

LCCC.torrent

Seeding 2Wird heruntergeladen 0Abgeschlossen 325Gesamtdownloads 578

LCCC/
- README.md
  1.38 KB
- README.txt
  2.76 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 2 Jahren

Größe

939.48 MB

Organisation

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Zugehörige Datensätze

Groundsource Global Flood Events Dataset

vor 3 Monaten

Klinischer Datensatz Zu Lungenkrebs

vor 2 Monaten

THINGS-EEG EEG-Datensatz

vor 5 Monaten

THINGS-MEG-Magnetoenzephalographie-Datensatz

vor 5 Monaten

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

vor 5 Monaten

Delhi-Verschmutzungs-AQI-Datensatz

vor 5 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LCCC Großes, Sauberes Chinesisches Konversationskorpus

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LCCC Großes, Sauberes Chinesisches Konversationskorpus

Zugehörige Datensätze

Groundsource Global Flood Events Dataset

Klinischer Datensatz Zu Lungenkrebs

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

Delhi-Verschmutzungs-AQI-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LCCC Großes, Sauberes Chinesisches Konversationskorpus

Zugehörige Datensätze

Groundsource Global Flood Events Dataset

Klinischer Datensatz Zu Lungenkrebs

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

Delhi-Verschmutzungs-AQI-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

Groundsource Global Flood Events Dataset

Klinischer Datensatz Zu Lungenkrebs

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

Delhi-Verschmutzungs-AQI-Datensatz

Zugehörige Datensätze

Groundsource Global Flood Events Dataset

Klinischer Datensatz Zu Lungenkrebs

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

Delhi-Verschmutzungs-AQI-Datensatz