VenusFactory 단백질 엔지니어링 설계 플랫폼

1. 튜토리얼 소개

VenusFactory는 상하이 교통대학교, 상하이 인공지능연구소, 화동과학기술대학교의 공동 연구팀이 2025년에 개발했습니다. 관련 논문 결과는 다음과 같습니다.VenusFactory: 단백질 엔지니어링 데이터 검색 및 언어 모델 미세 조정을 위한 통합 플랫폼".
VenusFactory는 단백질 엔지니어링 커뮤니티를 위해 특별히 설계된 통합 플랫폼으로, 생물학적 데이터 검색, 표준화된 작업 벤치마킹, 사전 훈련된 단백질 언어 모델(PLM)의 모듈식 미세 조정을 통합하는 것을 목표로 합니다.
이 플랫폼은 명령줄 실행과 Gradio 기반 코드 없는 인터페이스를 지원하고, 40개 이상의 단백질 관련 데이터 세트와 40개 이상의 인기 있는 PLM을 통합하여 컴퓨터 과학 및 생물학 연구자들이 쉽게 사용할 수 있도록 해줍니다.
튜토리얼은 7개의 기능 모듈을 제공합니다.
- 학습: 코드 없이 모델을 학습하고, 40개 이상의 대규모 모델을 지원하며, 비공개 데이터 세트를 사용하여 자체 모델을 학습합니다.
- 평가: 단백질 모델의 포괄적인 성능을 평가하는 데 사용하기 쉬운 도구입니다.
- 예측: 훈련된 모델을 사용하여 새로운 단백질 서열의 기능을 예측합니다.
- VenusAgent: DeepSeek과 함께 작동하여 AI 단백질 계산을 가능하게 하는 단백질 엔지니어링 에이전트입니다.
- 빠른 도구: 사용하기 쉬운 버전으로, 제로 샘플 돌연변이 예측(지시적 진화)과 지도 예측(기능 또는 속성 예측)을 지원합니다.
- 고급 도구: 제로 샘플 돌연변이 예측(지시적 진화)과 지도 예측(기능 또는 속성 예측)을 지원하는 고급 사용자 정의 버전입니다.
- 다운로드: 단백질 데이터에 쉽게 연결하고 주요 데이터베이스(RCSB, UniProt 등)에서 멀티스레드 다운로드를 지원합니다.
이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 한 대입니다. 이 튜토리얼에서 사용된 모델은 다음 위치에 저장됩니다.
/openbayes/input/input1
모든 데이터는 디렉토리에 저장됩니다./openbayes/home/VenusFactory
예배 규칙서.
2. 작업 단계
1. 컨테이너를 시작하세요

2. 사용 단계
"잘못된 게이트웨이"가 표시되면 프로젝트가 초기화 중임을 의미합니다. 1~2분 정도 기다린 후 페이지를 새로고침하세요.
2.1 사용 지침
이 튜토리얼에는 현재 교육, 평가, 예측, 다운로드라는 4개 모듈에 대한 사용 가이드가 포함되어 있습니다.

2.2 훈련
"모델 학습 및 예측 학습" 모듈에서 "학습" 모듈을 클릭합니다.
- 단백질 언어 모델 선택
- 데이터 세트 선택
- 데이터셋 미리보기
- 훈련 방법 구성(자세한 내용은 사용자 가이드 참조)
- 일괄 구성(자세한 내용은 사용자 가이드 참조)
선택한 모델 매개변수가 큰 경우, 그래픽 카드를 더 큰 카드로 교체하세요.

학습 모델 저장 경로를 설정하고 "학습 시작"을 클릭하여 학습을 시작하세요.

이 시점에서 훈련 매개변수와 손실 곡선을 볼 수 있습니다.

사용자 정의 데이터 세트를 사용하려면 사용자 정의 데이터 세트 구성을 사용할 수 있습니다. 데이터 세트 경로를 입력하기만 하면 됩니다(자세한 내용은 매뉴얼 문서를 참조하세요).
3.2 평가
"모델 학습 및 예측 학습" 모듈에서 "평가" 모듈을 클릭합니다.
- 모델 경로 및 단백질 언어 모델 선택
- 평가 방법 및 풀링 방법(자세한 내용은 사용자 가이드 참조)
- 데이터 세트 선택
- 데이터셋 미리보기
- 질문 유형 및 태그(자세한 내용은 사용자 가이드 참조)
- 일괄 구성(자세한 내용은 사용자 가이드 참조)
학습된 모델을 저장할 경로를 설정하고 단백질 언어 모델을 선택합니다.

일괄 구성, "평가 시작"을 클릭하여 학습을 시작하세요.

평가 결과는 다음과 같으며 CSV로 다운로드 가능합니다.

사용자 정의 데이터 세트를 사용하려면 사용자 정의 데이터 세트 구성을 사용할 수 있습니다. 데이터 세트 경로를 입력하기만 하면 됩니다(자세한 내용은 매뉴얼 문서를 참조하세요).
3.3 예측
"모델 학습 및 예측 학습" 모듈에서 "예측" 모듈을 클릭합니다.
- 모델 구성
- 예측 모듈을 선택하세요(자세한 내용은 사용자 가이드를 참조하세요)
학습 모델 저장 경로를 설정하고, 단백질 언어 모델을 선택한 후 "예측 시작"을 클릭하여 학습을 시작합니다.
단일 시퀀스 예측

단백질 서열 예시: MKTWFGHVLQ

배치 예측

일괄 예측 결과를 다운로드하여 저장할 수 있습니다.

3.4 비너스에이전트
"VenusAgent" 모듈을 클릭하세요
이 기능은 8월 8일부터 8월 10일까지 한정된 기간 동안 무료로 사용할 수 있습니다.

3.5 빠른 도구
빠른 도구 모듈을 클릭하세요
지향성 진화: AI 기반 돌연변이 예측

단백질 기능 예측

3.6 고급 도구
고급 도구 모듈을 클릭하세요
지향성 진화: AI 기반 돌연변이 예측
시퀀스 기반 모델

구조 기반 모델

단백질 기능 예측

3.7 다운로드
이 인터페이스에서 단백질 데이터를 다운로드하려면 다운로드 모듈을 클릭하세요.

3. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 우리는 AI4S 교류 그룹도 만들었습니다. 친구들을 환영합니다. QR 코드를 스캔하고 [AI4S]에 댓글을 달아 그룹에 가입하여 다양한 기술 문제를 논의하고 신청 결과를 공유하세요.↓

인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@inproceedings{tan-etal-2025-venusfactory,
title = "{V}enus{F}actory: An Integrated System for Protein Engineering with Data Retrieval and Language Model Fine-Tuning",
author = "Tan, Yang and Liu, Chen and Gao, Jingyuan and Wu, Banghao and Li, Mingchen and Wang, Ruilin and Zhang, Lingrong and Yu, Huiqun and Fan, Guisheng and Hong, Liang and Zhou, Bingxin",
editor = "Mishra, Pushkar and Muresan, Smaranda and Yu, Tao",
booktitle = "Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
month = jul,
year = "2025",
address = "Vienna, Austria",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2025.acl-demo.23/",
doi = "10.18653/v1/2025.acl-demo.23",
pages = "230--241",
ISBN = "979-8-89176-253-4",
}