HyperAI

Quora-Forschungsdatensatz Zur Textklassifizierung Doppelter Fragen

Datum

vor 2 Jahren

Größe

55.48 MB

Organisation

Quora

Veröffentlichungs-URL

data.quora.com

Der Quora-Datensatz „Duplicate Questions“ ist ein Datensatz zum Bestimmen, ob Fragenpaare im Text Duplikate sind. Es wird für die Textklassifizierungsforschung verwendet und soll jedem die Möglichkeit geben, semantisch äquivalente Modelle zu trainieren und zu testen.

Der Datensatz besteht aus über 400.000 Zeilen potenzieller Frage-Duplikat-Paare, wobei jede Zeile die Frage-ID, den vollständigen Text der Frage und einen Binärwert enthält, der angibt, ob die Zeile ein Duplikat-Paar enthält.

Dieser Datensatz wurde 2017 vom Quora-Team veröffentlicht, die Hauptherausgeber waren Shankar Iyer, Nikhil Dandekar und Kornél Csernai.

quora_duplicate_questions.torrent
Seeding 2Herunterladen 0Abgeschlossen 680Gesamtdownloads 1,330
  • quora_duplicate_questions/
    • README.md
      1.15 KB
    • README.txt
      2.29 KB
      • data/
        • quora_duplicate_questions.tsv
          55.48 MB