Command Palette

Search for a command to run...

MLDR多言語文書検索データセット

日付

6ヶ月前

サイズ

9.3 GB

タグ

MLDR (Multilingual Long-Document Retrieval) は、Wikipedia、Wudao、mC4 多言語コーパスに基づいて構築された多言語の長い文書検索データセットです。複数言語にわたる長文テキスト検索タスクの研究開発を支援することを目的としています。アラビア語 (ar)、ドイツ語 (de)、英語 (en)、スペイン語 (es)、フランス語 (fr)、ヒンディー語 (hi)、イタリア語 (it)、日本語 (ja)、韓国語 (ko)、ポルトガル語 (pt)、ロシア語 (ru)、タイ語 (th)、中国語 (zh) を含む、類型的に異なる 13 の言語をカバーしています。

特徴と利点:

  • 幅広い多言語対応:13 の言語が含まれており、複数の言語ファミリー(インド・ヨーロッパ語族、シナ・チベット語族、アラビア語など)をカバーしています。
  • 長いドキュメント機能: ドキュメントの平均長さは 4,737 語で、実際のシナリオでの長いテキスト処理のニーズに適しています。
  • 標準化された構築: GPT-3.5 を通じて高品質のクエリを生成し、クエリとドキュメント コンテンツの関連性を高めます。
MLDR.torrent
シーディング 1ダウンロード中 0ダウンロード完了 94総ダウンロード数 128
  • MLDR/
    • README.md
      1.62 KB
    • README.txt
      3.24 KB
      • data/
        • MLDR.zip
          9.3 GB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MLDR多言語文書検索データセット | データセット | HyperAI超神経