HyperAI超神经

VenusFactory 蛋白质工程设计平台

一、教程简介

该教程算力资源采用单卡 4090 。

该项目由上海交通大学、上海人工智能实验室、华东理工大学的联合团队于 2025 年开发,相关论文成果为「VenusFactory: A Unified Platform for Protein Engineering Data Retrieval and Language Model Fine-Tuning」。

VenusFactory 是一个专为蛋白质工程领域设计的统一平台,旨在整合生物数据检索、标准化任务基准测试和预训练蛋白质语言模型 (PLMs) 的模块化微调功能。

该平台支持命令行执行和基于 Gradio 的无代码界面,集成了超过 40 个与蛋白质相关的数据集和超过 40 个流行的 PLMs,方便计算机科学和生物学领域的研究人员使用。

二、运行步骤

所有数据均保存在/openbayes/home/VenusFactory

1. 启动容器

启动容器后点击 API 地址即可进入 Web 界面,由于模型较大,需等待约 1 分钟显示 WebUI 界面,否则将显示「Bad Gateway」

2. 使用文档

点击 Manual,选择语言,可以看到每个模块的详细使用指南。本教程共包含 Training 、 Evaluation 、 Predict 、 Download 四个模块

3. 简要使用示例

3.1 训练

点击 Training 模块,在 Protein Language Model 选择想训练的模型,在 Dataset Configuration 配置训练数据

如果想要使用自己的数据集可以通过 Use Custom Dataset 配置,只需要填写你的数据集路径即可(详情请参阅 Manual 使用文档)

设置训练模型保存路径,点击 Start 开始训练

此时可以看到训练的参数量以及 loss 曲线图

3.2 评估

点击 Evaluation 模块,配置好训练生成的模型路径以及训练的模型,进行处理数据,同时可以调整超参数然后开始评估

3.3 预测

点击 Prediction 模块,配置好训练生成的模型路径以及训练的模型,输入想要预测的蛋白质序列,点击 Predict 进行预测

蛋白质序列示例:MKTWFGHVLQ

3.4 下载

点击 Download 模块,可以在该界面下载蛋白质数据

三、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了 AI4S 交流群,欢迎小伙伴们扫码备注【AI4S】入群探讨各类技术问题、分享应用效果↓