Command Palette
Search for a command to run...
ChID – Großer Datensatz Chinesischer Redewendungen
Date
Size
Publish URL
Paper URL
Aufgrund des Mangels an umfangreichen Korpora ist die Forschung zum chinesischen Cloze-basierten Leseverständnis noch begrenzt. ChID (Chinese IDiom Dataset) ist ein umfangreicher chinesischer Cloze-Test-Datensatz, der zum Studium des Verständnisses von Redewendungen verwendet wird, einem einzigartigen Sprachphänomen im Chinesischen. In diesem Korpus werden Redewendungen in den Artikeln durch Leerzeichen ersetzt und die richtigen Antworten müssen aus sorgfältig entworfenen Kandidaten-Redewendungen ausgewählt werden.
Der Datensatz enthält 581.000 Absätze und 729.000 Leerzeichen und deckt mehrere Domänen ab. In ChID werden Redewendungen in Absätzen durch Leerzeichen ersetzt. Für jede Lücke steht eine Liste mit möglichen Redewendungen zur Auswahl, darunter auch die goldene Redewendung.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.