Quora Duplicate Questions 文本分类研究数据集

数据集下载 磁力链 下载帮助

OpenBayes 注册即获得免费算力

Quora Duplicate Questions Dataset 是用于判别文本中问题对是否重复的数据集,其被用于文本分类研究,旨在为任何人提供训练和测试语义等效模型的机会。

该数据集由超过 400,000 行潜在问题重复对组成,每行包含问题的 ID、问题的完整文本以及指示该行是否包含重复对的二进制值。

该数据集由 Quora 团队于 2017 年发布,主要发布人有 Shankar Iyer、Nikhil Dandekar 和 Kornél Csernai。

2 做种 0 下载 272 已完成
文件名大小
README.md1.15 KB
README.txt1.15 KB
quora_duplicate_questions.tsv55.48 MB