DISC-Law-SFT 高质量中文法律监督微调数据集

日期

3 个月前

大小

80.22 MB

机构

复旦大学

发布地址

github.com

* 该数据集支持在线使用,点击此处跳转

DISC-Law-SFT 数据集是由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 于 2023 年构建的高质量监督微调 (Supervised Fine-Tuning, SFT) 数据集,用于训练和提升大型语言模型 (LLMs) 在法律领域的应用能力,包含近 30 万条训练数据。该数据集专为中文法律领域设计,旨在提高模型在法律文本处理、法律推理思维以及司法领域知识检索遵循等方面的能力。相关论文为「DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services

数据集包含两个子集:DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet 。 DISC-Law-SFT-Pair 子集通过法律三段论的指令对构造方法,引入法律推理能力;而 DISC-Law-SFT-Triplet 子集则通过构造包含输入、输出和参考信息的三元组,增强模型利用外部知识的能力。

数据集的数据来源主要包括三部分:与中国法律相关的 NLP 司法任务公开数据集、来自真实世界的法律相关原始文本、以及通用的开源数据集。这样的数据来源确保了数据集的多样性和丰富性。

DISC-Law-SFT.torrent

做种 1

下载中 0

已完成 50

总下载 106

  • DISC-Law-SFT/
    • README.md
      1.88 KB
    • README.txt
      3.77 KB
      • data/
        • DISC-Law-SFT.zip
          80.22 MB