*该数据集支持在线使用,点击此处跳转。
Mol-Instructions 是一个专为大语言模型设计的大规模生物分子指令数据集,由浙江大学的研究团队于 2024 年创建的,相关论文成果为「Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models」,已被 ICLR 2024 接受。
该数据集包含 3 种指令:分子导向指令、蛋白质导向指令和生物分子文本指令,旨在提供丰富的指令数据,以增强大型语言模型在生物分子领域的理解和预测能力。
分子导向指令包含 148,400 条指令,涵盖小分子的基本属性和行为,涉及多种化学反应和分子设计任务。蛋白质导向指令包含 505,000 条指令,涉及蛋白质的结构、功能和活性预测,以及基于文本指令的蛋白质设计。生物分子文本指令包含 53,000 条指令,主要用于生物信息学和化学信息学领域的自然语言处理任务。

Mol-Instructions.torrent
做种 1下载中 0已完成 25总下载 32