HyperAIHyperAI

Command Palette

Search for a command to run...

DuIE-Datensatz Zur Extraktion Chinesischer Informationen Im Großen Maßstab

Datum

vor 3 Jahren

Größe

242.66 MB

Organisation

Baidu

Veröffentlichungs-URL

ai.baidu.com

Lizenz

Nicht-kommerziell

DuIE ist ein umfangreicher, manuell annotierter Datensatz, der zur Bewertung architekturbasierter Algorithmen zur Wissensextraktion verwendet werden kann.

Der Datensatz enthält mehr als 210.000 reale chinesische Sätze mit mehr als 450.000 SPO-Tripeln (d. h. Subjekt-Prädikat-Objekt-Tripeln), die aus einer vordefinierten Struktur und 49 Prädikaten bestehen.

Alle Sätze in diesem Datensatz stammen aus der Baidu-Enzyklopädie und der Baidu-News-Suche. Die Texte in diesem Datensatz decken verschiedene Bereiche realer Anwendungen ab, beispielsweise Nachrichten, Unterhaltung und benutzergenerierte Inhalte.

Der Datensatz besteht aus folgenden Daten:

  • 214.590 Sätze, davon:
    • 172.983 Sätze werden als Trainingssatz verwendet;
    • 21.626 Sätze sind für die Entwicklung vorgesehen;
    • Als Testsatz werden 19.981 Sätze verwendet.
  • 457.866 Fälle, davon:
    • 363.960 Instanzen sind Trainingssätze;
    • 45.558 Instanzen sind Entwicklungssätze;
    • Im Testset befinden sich 48.348 Instanzen.

Beispieldaten:

DuIE.torrent
Seeding 2Herunterladen 0Abgeschlossen 596Gesamtdownloads 1,315
  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • all_50_schemas
          6.94 KB
        • dev_data.json
          27.1 MB
        • train_data.json
          242.66 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DuIE-Datensatz Zur Extraktion Chinesischer Informationen Im Großen Maßstab | Datensätze | HyperAI