LawInstruct 首个法律大型指令数据集

日期

4 个月前

大小

9.84 GB

机构

Stanford University

发布地址

huggingface.co

LawInstruct 是首个面向法律领域的大型指令数据集。该数据集由斯坦福大学、约翰霍普金斯大学等机构联合创建,发布时间为 2024 年 4 月。 LawInstruct 的创建旨在填补现有法律任务数据集的空白,并加速法律领域模型的发展。

  1. 数据集特点
    • 覆盖范围:LawInstruct 涵盖了 17 个司法管辖区和 24 种语言,确保了数据集的广泛适用性和多样性。
    • 规模与多样性:包含 1200 万个训练示例,覆盖问答、蕴含、摘要和信息提取等多种法律任务。
  2. 数据集结构
    • 每个示例都按照定制的指令形式呈现,确保了数据的一致性和可操作性。
    • 整合了 58 个经过标注的高质量数据集,源自不同的法律任务和专业领域。
  3. 技术实现
    • 使用了 MultiLegalPile,一个 689GB 的多语言法律语料库,为模型提供了丰富的预训练材料。
  4. 性能提升
    • 通过在 LawInstruct 上进行指令调整,Flan-T5 XL 模型在 LegalBench 上的平衡准确率显著提高,验证了数据集对模型性能的积极影响。
  5. 研究与论文
LawInstruct.torrent

做种 1

下载中 2

已完成 25

总下载 54

  • LawInstruct/
    • README.md
      2.09 KB
    • README.txt
      4.18 KB
      • data/
        • lawinstruct.zip
          9.84 GB