HyperAI超神経

MLDR多言語文書検索データセット

日付

1ヶ月前

サイズ

9.3 GB

タグ

カテゴリ

MLDR (Multilingual Long-Document Retrieval) は、Wikipedia、Wudao、mC4 多言語コーパスに基づいて構築された多言語の長い文書検索データセットです。複数言語にわたる長文テキスト検索タスクの研究開発を支援することを目的としています。アラビア語 (ar)、ドイツ語 (de)、英語 (en)、スペイン語 (es)、フランス語 (fr)、ヒンディー語 (hi)、イタリア語 (it)、日本語 (ja)、韓国語 (ko)、ポルトガル語 (pt)、ロシア語 (ru)、タイ語 (th)、中国語 (zh) を含む、類型的に異なる 13 の言語をカバーしています。

特徴と利点:

  • 幅広い多言語対応:13 の言語が含まれており、複数の言語ファミリー(インド・ヨーロッパ語族、シナ・チベット語族、アラビア語など)をカバーしています。
  • 長いドキュメント機能: ドキュメントの平均長さは 4,737 語で、実際のシナリオでの長いテキスト処理のニーズに適しています。
  • 標準化された構築: GPT-3.5 を通じて高品質のクエリを生成し、クエリとドキュメント コンテンツの関連性を高めます。
MLDR.torrent
シーディング 1ダウンロード中 0ダウンロード完了 29総ダウンロード数 26
  • MLDR/
    • README.md
      1.62 KB
    • README.txt
      3.24 KB
      • data/
        • MLDR.zip
          9.3 GB