VenusFactory 단백질 엔지니어링 설계 플랫폼
1. 튜토리얼 소개
이 튜토리얼에서는 샘플 모델과 데이터 세트를 사용하며, 컴퓨팅 리소스는 단일 4090 GPU입니다. 더 큰 모델이나 데이터 세트를 학습해야 하는 경우, 성능이 더 좋은 그래픽 카드를 사용하세요.
이 프로젝트는 2025년 상하이 교통대학교, 상하이 인공지능연구소, 화동과학기술대학교의 공동 연구팀에 의해 개발되었습니다. 관련 논문 결과는 다음과 같습니다.VenusFactory: 단백질 엔지니어링 데이터 검색 및 언어 모델 미세 조정을 위한 통합 플랫폼".
VenusFactory는 단백질 엔지니어링 커뮤니티를 위해 설계된 통합 플랫폼으로, 생물학적 데이터 검색, 표준화된 작업 벤치마킹, 사전 훈련된 단백질 언어 모델(PLM)의 모듈식 미세 조정을 통합하는 것을 목표로 합니다. 이 플랫폼은 명령줄 실행과 Gradio 기반 코드 없는 인터페이스를 지원하고, 40개 이상의 단백질 관련 데이터 세트와 40개 이상의 인기 있는 PLM을 통합하여 컴퓨터 과학 및 생물학 연구자들이 쉽게 사용할 수 있도록 해줍니다.
이 튜토리얼은 VenusFactory의 주요 기능을 빠르게 이해하고 데모 데이터세트를 사용하여 단백질 용해도 예측을 위한 미세 조정 학습, 평가 및 예측을 수행하는 데 도움이 되는 포괄적인 데모 시작 가이드를 제공합니다.

2. 작업 단계
모든 데이터는 /openbayes/home/VenusFactory에 저장됩니다.
1. 컨테이너를 시작하세요
컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다. 모델이 크기 때문에 WebUI 인터페이스를 표시하는 데 약 1분이 소요되며, 그렇지 않으면 "Bad Gateway"가 표시됩니다.

2. 문서 활용
'수동'을 클릭하고 언어를 선택하여 각 모듈에 대한 자세한 지침을 확인하세요. 이 튜토리얼에는 학습, 평가, 예측, 다운로드의 네 가지 모듈이 포함되어 있습니다.

3. 간단한 사용 예
3.1 훈련
Training 모듈을 클릭하고 Protein Language Model에서 학습할 모델을 선택한 후 Dataset Configuration에서 학습 데이터를 구성합니다.

사용자 정의 데이터 세트를 사용하려면 사용자 정의 데이터 세트 사용 구성을 사용하면 됩니다. 데이터 세트의 경로를 입력하기만 하면 됩니다(자세한 내용은 매뉴얼 문서를 참조하세요)

학습 모델 저장 경로를 설정하고 시작을 클릭하여 학습을 시작합니다.

이 시점에서 훈련 매개변수와 손실 곡선을 볼 수 있습니다.

3.2 평가
평가 모듈을 클릭하고 학습을 통해 생성된 모델 경로와 학습된 모델을 구성하고 데이터를 처리하고 하이퍼파라미터를 조정한 후 평가를 시작합니다.

3.3 예측
예측 모듈을 클릭하고 학습된 모델과 학습된 모델에서 생성된 모델 경로를 구성하고 예측하려는 단백질 서열을 입력한 후 예측을 클릭하여 예측을 수행합니다.
단백질 서열 예시: MKTWFGHVLQ

3.4 다운로드
이 인터페이스에서 단백질 데이터를 다운로드하려면 다운로드 모듈을 클릭하세요.

3. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 우리는 AI4S 교류 그룹도 만들었습니다. 친구들을 환영합니다. QR 코드를 스캔하고 [AI4S]에 댓글을 달아 그룹에 가입하여 다양한 기술 문제를 논의하고 신청 결과를 공유하세요.↓
