ChID – Großer Datensatz Chinesischer Redewendungen
Datum
Größe
Veröffentlichungs-URL
Kategorien
Aufgrund des Mangels an umfangreichen Korpora ist die Forschung zum chinesischen Cloze-basierten Leseverständnis noch begrenzt. ChID (Chinese IDiom Dataset) ist ein umfangreicher chinesischer Cloze-Test-Datensatz, der zum Studium des Verständnisses von Redewendungen verwendet wird, einem einzigartigen Sprachphänomen im Chinesischen. In diesem Korpus werden Redewendungen in den Artikeln durch Leerzeichen ersetzt und die richtigen Antworten müssen aus sorgfältig entworfenen Kandidaten-Redewendungen ausgewählt werden.
Der Datensatz enthält 581.000 Absätze und 729.000 Leerzeichen und deckt mehrere Domänen ab. In ChID werden Redewendungen in Absätzen durch Leerzeichen ersetzt. Für jede Lücke steht eine Liste mit möglichen Redewendungen zur Auswahl, darunter auch die goldene Redewendung.