HyperAI

Mol-Instructions 大规模生物分子指令数据集

日期

4 个月前

大小

260.89 MB

机构

浙江大学

发布地址

github.com

*该数据集支持在线使用,点击此处跳转

Mol-Instructions 是一个专为大语言模型设计的大规模生物分子指令数据集,由浙江大学的研究团队于 2024 年创建的,相关论文成果为「Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models」,已被 ICLR 2024 接受。

该数据集包含 3 种指令:分子导向指令、蛋白质导向指令和生物分子文本指令,旨在提供丰富的指令数据,以增强大型语言模型在生物分子领域的理解和预测能力。

分子导向指令包含 148,400 条指令,涵盖小分子的基本属性和行为,涉及多种化学反应和分子设计任务。蛋白质导向指令包含 505,000 条指令,涉及蛋白质的结构、功能和活性预测,以及基于文本指令的蛋白质设计。生物分子文本指令包含 53,000 条指令,主要用于生物信息学和化学信息学领域的自然语言处理任务。

Mol-Instructions.torrent
做种 1下载中 0已完成 25总下载 32
  • Mol-Instructions/
    • README.md
      1.69 KB
    • README.txt
      3.39 KB
      • data/
        • Mol-Instructions.zip
          260.89 MB