Command Palette
Search for a command to run...
ChID – Großer Datensatz Chinesischer Redewendungen
Datum
Größe
Veröffentlichungs-URL
Paper-URL
Aufgrund des Mangels an umfangreichen Korpora ist die Forschung zum chinesischen Cloze-basierten Leseverständnis noch begrenzt. ChID (Chinese IDiom Dataset) ist ein umfangreicher chinesischer Cloze-Test-Datensatz, der zum Studium des Verständnisses von Redewendungen verwendet wird, einem einzigartigen Sprachphänomen im Chinesischen. In diesem Korpus werden Redewendungen in den Artikeln durch Leerzeichen ersetzt und die richtigen Antworten müssen aus sorgfältig entworfenen Kandidaten-Redewendungen ausgewählt werden.
Der Datensatz enthält 581.000 Absätze und 729.000 Leerzeichen und deckt mehrere Domänen ab. In ChID werden Redewendungen in Absätzen durch Leerzeichen ersetzt. Für jede Lücke steht eine Liste mit möglichen Redewendungen zur Auswahl, darunter auch die goldene Redewendung.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.