HyperAI

Wikipedia Wikipedia-Datensatz

Datum

vor einem Jahr

Größe

57.98 GB

Organisation

Veröffentlichungs-URL

huggingface.co

Lizenz

CC BY-NC-SA 3.0

Kategorien

Datensatzzusammenfassung

Der Wikipedia-Datensatz enthält bereinigte Artikel in allen Sprachen.

Dieser Datensatz wird bereitgestellt von Wikipedia-Dumps  Erstellen Sie es mit einer Teilmenge pro Sprache und jeder Teilmenge, die mit einer Spaltenaufteilung verknüpft ist.

Jedes Beispiel enthält den Inhalt eines vollständigen Wikipedia-Artikels, der bereinigt wurde, um Markup und unerwünschte Teile (wie „Referenzen“ usw.) zu entfernen.

Datenvisualisierung

Klicken Nomic Atlas  Karte, die 6,4 Millionen Beispiele der Aufteilung 20231101.en visualisiert.

Lizenzierungsinformationen

Copyright-Lizenzinformationen:https://dumps.wikimedia.org/legal.html

Alle Originaltextinhalte basieren auf GNU-Lizenz für freie Dokumentation (GFDL) UndCreative Commons Namensnennung-Weitergabe unter gleichen Bedingungen 3.0-LizenzGenehmigung. Einige Texte sind möglicherweise nur unter einer Creative Commons-Lizenz verfügbar. sehen ihreNutzungsbedingungen. Einige von Autoren verfasste Texte können unter zusätzlichen Lizenzen veröffentlicht werden oder gemeinfrei werden.

wikipedia.torrent
Seeding 1Herunterladen 2Abgeschlossen 181Gesamtdownloads 452
  • wikipedia/
    • README.md
      1.54 KB
    • README.txt
      3.09 KB
      • data/
        • wikipedia.zip
          57.98 GB