HyperAI

DuIE-Datensatz Zur Extraktion Chinesischer Informationen Im Großen Maßstab

Datum

vor 3 Jahren

Größe

242.66 MB

Organisation

Baidu

Veröffentlichungs-URL

ai.baidu.com

Lizenz

非商业用途

DuIE ist ein umfangreicher, manuell annotierter Datensatz, der zur Bewertung architekturbasierter Algorithmen zur Wissensextraktion verwendet werden kann.

Der Datensatz enthält mehr als 210.000 reale chinesische Sätze mit mehr als 450.000 SPO-Tripeln (d. h. Subjekt-Prädikat-Objekt-Tripeln), die aus einer vordefinierten Struktur und 49 Prädikaten bestehen.

Alle Sätze in diesem Datensatz stammen aus der Baidu-Enzyklopädie und der Baidu-News-Suche. Die Texte in diesem Datensatz decken verschiedene Bereiche realer Anwendungen ab, beispielsweise Nachrichten, Unterhaltung und benutzergenerierte Inhalte.

Der Datensatz besteht aus folgenden Daten:

  • 214.590 Sätze, davon:
    • 172.983 Sätze werden als Trainingssatz verwendet;
    • 21.626 Sätze sind für die Entwicklung vorgesehen;
    • Als Testsatz werden 19.981 Sätze verwendet.
  • 457.866 Fälle, davon:
    • 363.960 Instanzen sind Trainingssätze;
    • 45.558 Instanzen sind Entwicklungssätze;
    • Im Testset befinden sich 48.348 Instanzen.

Beispieldaten:

DuIE.torrent
Seeding 1Herunterladen 1Abgeschlossen 434Gesamtdownloads 1,097
  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • all_50_schemas
          6.94 KB
        • dev_data.json
          27.1 MB
        • train_data.json
          242.66 MB