DuIE-Datensatz Zur Extraktion Chinesischer Informationen Im Großen Maßstab
Datum
vor 3 Jahren
Größe
242.66 MB
Veröffentlichungs-URL
Lizenz
非商业用途
Kategorien
DuIE ist ein umfangreicher, manuell annotierter Datensatz, der zur Bewertung architekturbasierter Algorithmen zur Wissensextraktion verwendet werden kann.
Der Datensatz enthält mehr als 210.000 reale chinesische Sätze mit mehr als 450.000 SPO-Tripeln (d. h. Subjekt-Prädikat-Objekt-Tripeln), die aus einer vordefinierten Struktur und 49 Prädikaten bestehen.
Alle Sätze in diesem Datensatz stammen aus der Baidu-Enzyklopädie und der Baidu-News-Suche. Die Texte in diesem Datensatz decken verschiedene Bereiche realer Anwendungen ab, beispielsweise Nachrichten, Unterhaltung und benutzergenerierte Inhalte.
Der Datensatz besteht aus folgenden Daten:
- 214.590 Sätze, davon:
- 172.983 Sätze werden als Trainingssatz verwendet;
- 21.626 Sätze sind für die Entwicklung vorgesehen;
- Als Testsatz werden 19.981 Sätze verwendet.
- 457.866 Fälle, davon:
- 363.960 Instanzen sind Trainingssätze;
- 45.558 Instanzen sind Entwicklungssätze;
- Im Testset befinden sich 48.348 Instanzen.
Beispieldaten:

DuIE.torrent
Seeding 1Herunterladen 1Abgeschlossen 434Gesamtdownloads 1,097