HyperAIHyperAI

Command Palette

Search for a command to run...

DuIE-Datensatz Zur Extraktion Chinesischer Informationen Im Großen Maßstab

Datum

vor 3 Jahren

Größe

242.66 MB

Organisation

Baidu

Veröffentlichungs-URL

ai.baidu.com

Lizenz

Non-Commercial

DuIE ist ein umfangreicher, manuell annotierter Datensatz, der zur Bewertung architekturbasierter Algorithmen zur Wissensextraktion verwendet werden kann.

Der Datensatz enthält mehr als 210.000 reale chinesische Sätze mit mehr als 450.000 SPO-Tripeln (d. h. Subjekt-Prädikat-Objekt-Tripeln), die aus einer vordefinierten Struktur und 49 Prädikaten bestehen.

Alle Sätze in diesem Datensatz stammen aus der Baidu-Enzyklopädie und der Baidu-News-Suche. Die Texte in diesem Datensatz decken verschiedene Bereiche realer Anwendungen ab, beispielsweise Nachrichten, Unterhaltung und benutzergenerierte Inhalte.

Der Datensatz besteht aus folgenden Daten:

  • 214.590 Sätze, davon:
    • 172.983 Sätze werden als Trainingssatz verwendet;
    • 21.626 Sätze sind für die Entwicklung vorgesehen;
    • Als Testsatz werden 19.981 Sätze verwendet.
  • 457.866 Fälle, davon:
    • 363.960 Instanzen sind Trainingssätze;
    • 45.558 Instanzen sind Entwicklungssätze;
    • Im Testset befinden sich 48.348 Instanzen.

Beispieldaten:

DuIE.torrent
Seeding 1Wird heruntergeladen 0Abgeschlossen 634Gesamtdownloads 1,411
  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • all_50_schemas
          6.94 KB
        • dev_data.json
          27.1 MB
        • train_data.json
          242.66 MB

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp