HyperAI超神经

MLDR 多语言文档检索数据集

日期

a month ago

大小

9.3 GB

发布地址

huggingface.co

标签

MLDR(Multilingual Long-Document Retrieval)是一个基于维基百科(Wikipedia)、悟道数据集(Wudao)和 mC4 多语言语料库,构建的多语言长文档检索数据集,旨在支持跨语言长文本检索任务的研究与开发。涵盖 13 种类型学上不同的语言,包括阿拉伯语(ar)、德语(de)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、意大利语(it)、日语(ja)、韩语(ko)、葡萄牙语(pt)、俄语(ru)、泰语(th)、中文(zh)。

特点优势:

  • 多语言覆盖广:包含 13 种语言,覆盖多种语系(如印欧语系、汉藏语系、阿拉伯语系等)。
  • 长文档特性:文档平均长度达 4,737 词,适用于真实场景中长文本处理需求。
  • 标准化构建:通过 GPT-3.5 生成高质量查询,确保查询与文档内容的强相关性。
MLDR.torrent
做种 1正在下载 0已完成 29总下载次数 26
  • MLDR/
    • README.md
      1.62 KB
    • README.txt
      3.24 KB
      • data/
        • MLDR.zip
          9.3 GB