Quora-Forschungsdatensatz Zur Textklassifizierung Doppelter Fragen
Datum
vor 2 Jahren
Größe
55.48 MB
Veröffentlichungs-URL
Kategorien
Der Quora-Datensatz „Duplicate Questions“ ist ein Datensatz zum Bestimmen, ob Fragenpaare im Text Duplikate sind. Es wird für die Textklassifizierungsforschung verwendet und soll jedem die Möglichkeit geben, semantisch äquivalente Modelle zu trainieren und zu testen.
Der Datensatz besteht aus über 400.000 Zeilen potenzieller Frage-Duplikat-Paare, wobei jede Zeile die Frage-ID, den vollständigen Text der Frage und einen Binärwert enthält, der angibt, ob die Zeile ein Duplikat-Paar enthält.
Dieser Datensatz wurde 2017 vom Quora-Team veröffentlicht, die Hauptherausgeber waren Shankar Iyer, Nikhil Dandekar und Kornél Csernai.
quora_duplicate_questions.torrent
Seeding 2Herunterladen 0Abgeschlossen 680Gesamtdownloads 1,330