Quora 重複質問データセットは、テキスト内の質問のペアが繰り返されているかどうかを判断するために使用されるデータセットで、テキスト分類の研究に使用され、意味的に同等のモデルをトレーニングおよびテストする機会を誰にでも提供することを目的としています。
データセットは 400,000 行を超える潜在的な問題の重複ペアで構成されており、各行には問題の ID、問題の全文、および行に重複ペアが含まれているかどうかを示すバイナリ値が含まれています。
このデータセットは、2017 年に Quora チームによってリリースされました。主な発行者は、Shankar Iyer、Nikhil Dandekar、Kornél Csernai です。
quora_duplicate_questions.torrent
シーディング 2ダウンロード中 0ダウンロード完了 680総ダウンロード数 1,330