WikiText Datensatz Zur Langfristigen Abhängigkeitssprachenmodellierung Datensatz Zur Langfristigen Abhängigkeitssprachenmodellierung
Datum
vor 2 Jahren
Größe
373.28 MB
Veröffentlichungs-URL
Der WikiText-Datensatz zur langfristigen Sprachmodellierung enthält 100 Millionen englische Wörter, die aus den hochwertigen Artikeln und Benchmark-Artikeln von Wikipedia stammen.
Der Datensatz ist in zwei Versionen unterteilt: WikiText-2 und WikiText-103. Im Vergleich zum PTB-Vokabular ist es umfangreicher und jedes Wort behält auch den entsprechenden Originalartikel bei, was für Szenarien geeignet ist, die eine langfristige Abhängigkeit von natürlicher Sprachmodellierung erfordern.
Dieser Datensatz wurde 2016 von Salesforce Research veröffentlicht. Die Hauptherausgeber waren Stephen Merity, Caiming Xiong, James Bradbury und Richard Socher. Das zugehörige Dokument ist „Pointer Sentinel Mixture Models“.
WikiText Long Term Dependency Language Modeling Dataset.torrent
Seeding 5Herunterladen 0Abgeschlossen 1,121Gesamtdownloads 2,123