Command Palette
Search for a command to run...
Mol-Instructions 大规模生物分子指令数据集
Mol-Instructions 是一个专为大语言模型设计的大规模生物分子指令数据集,由浙江大学的研究团队于 2024 年创建的,相关论文成果为「Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models」,已被 ICLR 2024 接受。
该数据集包含 3 种指令:分子导向指令、蛋白质导向指令和生物分子文本指令,旨在提供丰富的指令数据,以增强大型语言模型在生物分子领域的理解和预测能力。
分子导向指令包含 148,400 条指令,涵盖小分子的基本属性和行为,涉及多种化学反应和分子设计任务。蛋白质导向指令包含 505,000 条指令,涉及蛋白质的结构、功能和活性预测,以及基于文本指令的蛋白质设计。生物分子文本指令包含 53,000 条指令,主要用于生物信息学和化学信息学领域的自然语言处理任务。

Citation
@inproceedings{fang2023mol, author = {Yin Fang and Xiaozhuan Liang and Ningyu Zhang and Kangwei Liu and Rui Huang and Zhuo Chen and Xiaohui Fan and Huajun Chen}, title = {Mol-Instructions: {A} Large-Scale Biomolecular Instruction Dataset for Large Language Models}, booktitle = {{ICLR}}, publisher = {OpenReview.net}, year = {2024}, url = {https://openreview.net/pdf?id=Tlsdsb6l9n} }