HyperAIHyperAI

Command Palette

Search for a command to run...

ChID – Großer Datensatz Chinesischer Redewendungen

Datum

vor einem Jahr

Größe

328.62 MB

Organisation

Tsinghua-Universität

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Aufgrund des Mangels an umfangreichen Korpora ist die Forschung zum chinesischen Cloze-basierten Leseverständnis noch begrenzt. ChID (Chinese IDiom Dataset) ist ein umfangreicher chinesischer Cloze-Test-Datensatz, der zum Studium des Verständnisses von Redewendungen verwendet wird, einem einzigartigen Sprachphänomen im Chinesischen. In diesem Korpus werden Redewendungen in den Artikeln durch Leerzeichen ersetzt und die richtigen Antworten müssen aus sorgfältig entworfenen Kandidaten-Redewendungen ausgewählt werden.

Der Datensatz enthält 581.000 Absätze und 729.000 Leerzeichen und deckt mehrere Domänen ab. In ChID werden Redewendungen in Absätzen durch Leerzeichen ersetzt. Für jede Lücke steht eine Liste mit möglichen Redewendungen zur Auswahl, darunter auch die goldene Redewendung.

ChID.torrent
Seeding 1Herunterladen 0Abgeschlossen 171Gesamtdownloads 256
  • ChID/
    • README.md
      1.34 KB
    • README.txt
      2.68 KB
      • data/
        • chid.zip
          328.62 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ChID – Großer Datensatz Chinesischer Redewendungen | Datensätze | HyperAI