HyperAIHyperAI

Command Palette

Search for a command to run...

ChID – Großer Datensatz Chinesischer Redewendungen

Date

vor einem Jahr

Size

328.62 MB

Organization

Tsinghua-Universität

Publish URL

github.com

Paper URL

arxiv.org

Aufgrund des Mangels an umfangreichen Korpora ist die Forschung zum chinesischen Cloze-basierten Leseverständnis noch begrenzt. ChID (Chinese IDiom Dataset) ist ein umfangreicher chinesischer Cloze-Test-Datensatz, der zum Studium des Verständnisses von Redewendungen verwendet wird, einem einzigartigen Sprachphänomen im Chinesischen. In diesem Korpus werden Redewendungen in den Artikeln durch Leerzeichen ersetzt und die richtigen Antworten müssen aus sorgfältig entworfenen Kandidaten-Redewendungen ausgewählt werden.

Der Datensatz enthält 581.000 Absätze und 729.000 Leerzeichen und deckt mehrere Domänen ab. In ChID werden Redewendungen in Absätzen durch Leerzeichen ersetzt. Für jede Lücke steht eine Liste mit möglichen Redewendungen zur Auswahl, darunter auch die goldene Redewendung.

ChID.torrent
Seeding 1Downloading 0Completed 177Total Downloads 304
  • ChID/
    • README.md
      1.34 KB
    • README.txt
      2.68 KB
      • data/
        • chid.zip
          328.62 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp