Command Palette

Search for a command to run...

DISC-Law-SFT 高质量中文法律监督微调数据集

日期

1 年前

大小

80.22 MB

机构

复旦大学

发布地址

github.com

论文链接

arxiv.org

* 该数据集支持在线使用,点击此处跳转

DISC-Law-SFT 数据集是由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 于 2023 年构建的高质量监督微调 (Supervised Fine-Tuning, SFT) 数据集,用于训练和提升大型语言模型 (LLMs) 在法律领域的应用能力,包含近 30 万条训练数据。该数据集专为中文法律领域设计,旨在提高模型在法律文本处理、法律推理思维以及司法领域知识检索遵循等方面的能力。相关论文为「DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services

数据集包含两个子集:DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet 。 DISC-Law-SFT-Pair 子集通过法律三段论的指令对构造方法,引入法律推理能力;而 DISC-Law-SFT-Triplet 子集则通过构造包含输入、输出和参考信息的三元组,增强模型利用外部知识的能力。

数据集的数据来源主要包括三部分:与中国法律相关的 NLP 司法任务公开数据集、来自真实世界的法律相关原始文本、以及通用的开源数据集。这样的数据来源确保了数据集的多样性和丰富性。

DISC-Law-SFT.torrent
做种 1正在下载 0已完成 194总下载次数 742
  • DISC-Law-SFT/
    • README.md
      1.88 KB
    • README.txt
      3.77 KB
      • data/
        • DISC-Law-SFT.zip
          80.22 MB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供