HyperAI초신경

40개 이상의 주류 모델과 데이터 세트를 포괄하는 상하이 교통대학교 팀은 원스톱 단백질 엔지니어링 설계 플랫폼 VenusFactory를 출시했습니다.

特色图像

인공지능 컴퓨팅과 데이터 기반 방법의 급속한 발전으로 인해 단백질 공학은 AI 지원 설계 단계로 옮겨가고 있습니다. 연구자들은 그 어느 때보다 포괄적이고 고품질의 단백질 데이터 세트, 더욱 강력하고 영향력 있는 단백질 인공지능 모델, 그리고 더욱 효율적이고 표준화된 분석 플랫폼이 필요합니다. 이를 통해 방대한 생물학적 데이터에서 귀중한 정보를 정확하게 추출하고, 새로운 단백질의 설계와 최적화를 가속화하고, 생물의학, 합성생물학 및 기타 분야에서 혁신적인 돌파구를 촉진할 수 있습니다.

이러한 맥락에서 점점 더 많은 생명과학 종사자들이 AI를 이해하고 AI 기술을 사용하여 단백질 공학 설계를 지원하고자 합니다. 하지만 데이비드 베이커가 재설계한 오픈소스 솔루션과 메타의 ESM 시리즈의 대형 모델은 모두 사용에 많은 어려움이 있습니다. AI 컴퓨팅 프레임워크의 복잡한 논리, 방대한 코드, 강력한 컴퓨터 프로그래밍 기반이 필요한 등의 어려움이 있습니다. 다시 말해, 생물학 연구자와 경험이 없는 컴퓨터 실무자조차도 사용에 있어 상당히 높은 문턱에 직면해 있습니다. 이런 측면에서 사용자 친화적인 로코드 애플리케이션은 점차 현대 오픈소스 도구를 사용하는 주류 추세가 되어가고 있습니다. 이를 통해 연구자들은 복잡한 모델 구성과 코드 구현에 얽매이지 않고 컴퓨터 과학자와 생물학자가 더욱 편리한 방식으로 딥 러닝 모델을 호출하거나 학습하고 과학 연구 자체에 집중할 수 있습니다.

단백질 공학 분야에서 인공지능의 응용과 개발을 촉진하기 위해 중국 상하이 교통대학교의 홍량 교수 연구 그룹은 단백질 공학에 특화된 원스톱 오픈 플랫폼인 VenusFactory를 개발했습니다. 연구자는 인터페이스 상호작용이나 명령줄을 통해 지루한 데이터 검색, 모델 학습, 작업 평가, 모델 배포 및 기타 기능을 쉽게 구현할 수 있습니다. 코드 없는 프로세스 기반 설계를 통해 이 플랫폼은 과거의 복잡한 AI 엔지니어링 작업을 손쉽게 수행할 수 있는 가벼운 작업으로 간소화합니다. 연구자들은 로컬에서 웹 서비스를 시작하고 복잡한 코드를 작성하지 않고도 40개 이상의 최첨단 단백질 딥러닝 모델을 쉽게 호출할 수 있어 개인 데이터의 프라이버시를 보호하고 지능형 과학 연구의 한계를 크게 낮추며 생명 과학 분야에서 AI의 심층적 적용을 가속화할 수 있습니다.

코드와 데이터는 https://github.com/ai4protein/VenusFactory에서 오픈 소스로 제공됩니다.

현재, "VenusFactory 단백질 공학 설계 플랫폼"은 HyperAI 웹사이트의 튜토리얼 섹션에서 출시되었습니다. 자세한 사용 튜토리얼은 이 기사의 마지막에 첨부되어 있습니다. 관심 있는 독자는 아래 링크를 통해 플랫폼을 체험해 볼 수 있습니다.

https://go.hyper.ai/ZqO3h

VenusFactory: 단백질 AI 애플리케이션의 장벽을 허무는 통합 플랫폼

단백질 데이터는 매우 분산되어 있습니다. VenusFactory는 생물학적 데이터의 소스에 직접 접근합니다. AI 단백질 연구는 대규모 생물학 데이터에 크게 의존하며, 주석이 달린 데이터는 여러 주요 공공 데이터베이스에 분산되어 있습니다. 과학자들은 종종 여러 데이터베이스 사이를 전환하고, 데이터를 수동으로 다운로드하고, 형식을 변환하기 위한 스크립트를 작성해야 하는데, 이는 비실용적인 연구 작업에 시간과 에너지를 낭비하는 결과를 낳습니다. VenusFactory는 RCSB PDB, UniProt, InterPro 등과 같은 주요 공공 데이터베이스에 직접 연결됩니다. 다중 스레드 고속 다운로드는 데이터 검색 효율성을 크게 향상시킵니다.

  1. 단백질 서열, 3차원 구조, 기능 주석에 대한 원스톱 접근으로 생물학적 정보를 완벽하게 통합합니다.
  2. 표준화된 형식의 출력을 통해 데이터 호환성 문제를 방지하고 AI에 대한 직접적인 학습을 용이하게 합니다.
  3. 멀티스레드 다운로드 메커니즘은 데이터 수집 속도를 크게 향상시켜 과학자들이 연구에 집중할 수 있도록 해줍니다.

단백질 AI 과제에 대한 평가 시스템은 통일되지 않았습니다. VenusFactory는 5가지 핵심 작업을 다룹니다. 현재 단백질 AI 모델 평가 시스템에는 기성 권위 벤치마크 데이터가 부족하고, 대부분의 연구는 여전히 개별 작업의 최적화에 집중되어 있습니다. 연구자들이 솔루션을 선택할 때, 실험적 비교에 많은 추가 시간을 투자해야 하는 경우가 많습니다. VenusFactory는 5가지 핵심 작업을 포함하여 40개 이상의 최첨단 단백질 엔지니어링 평가 데이터 세트를 통합합니다.

  1. 단백질 기능 예측: 단백질의 기능적 태그를 예측하여 새로운 효소와 새로운 표적을 발견하는 데 도움이 됩니다.
  2. 단백질 세포 내 위치 예측:질병 진단에 도움이 되도록 세포 내 단백질의 위치를 예측합니다.
  3. 단백질 용해도 평가:용해도를 미리 판단하여 습식 실험의 효율성을 높입니다.
  4. 단백질 돌연변이의 영향 분석: 유전자 돌연변이의 잠재적 영향을 탐구하고 정밀 의학을 발전시킵니다.
  5. 기타 예측 작업: 금속 이온 결합, 단백질 분류 신호 예측, 최적 온도 예측 등

이러한 벤치마크 데이터 세트와 평가 결과의 도움으로 사용자는 다양한 모델의 성능을 쉽게 비교하고 솔루션을 선택하고 최적화할 수 있습니다. 동시에 VenusFactory는 모든 데이터 세트를 다운로드하는 기능도 제공하므로 사용자는 한 번의 클릭으로 해당 단백질 서열, 구조, 라벨 및 기타 정보를 얻을 수 있습니다.

기존의 단백질 AI 계산 도구는 사용 장벽이 높고 컴퓨팅 배경이 없는 연구자들이 사용하기 어렵습니다. 현재의 단백질 AI 모델을 사용하려면 강력한 프로그래밍 기술과 딥러닝 지식이 필요한 경우가 많습니다. 대부분의 생물학자에게 AI 모델을 훈련하고, 미세 조정하고, 적용하는 것은 여전히 높은 임계치의 작업입니다. VenusFactory는 Venus 시리즈(ProSST, Pro-Prime, PETA 등), ESM 시리즈(ESM2, ESM1b 등), Ankh 시리즈(Base, Large), ProtTrans 시리즈(ProtBert, ProtT5) 등을 포함하여 포괄적인 AI 대규모 모델 솔루션을 포괄하여 세계 최첨단 단백질 언어 모델(PLM) 40개 이상을 통합합니다.

  1. 사전 훈련된 모델 생태계: 처음부터 교육을 받지 않고도 오픈소스 PLM을 직접 호출하여 컴퓨팅 리소스를 절약합니다.
  2. 고성능 미세 조정: LoRA 및 SES-Adapter와 같은 최첨단 방법을 지원하여 모델을 특정 생물학적 작업에 맞게 조정합니다.
  3. 멀티태스킹 지원: 단백질 용해도 예측이든 돌연변이 특성 예측이든 쉽게 시작할 수 있습니다.
  4. 명령줄 모드: 컴퓨터 과학자에게 적합하며 매개변수를 유연하게 조정하고 심층적인 최적화를 달성할 수 있습니다.
  5. 코드 없는 웹 인터페이스: 생물학자에게 적합하며, 간단한 클릭만으로 AI 작업을 실행할 수 있으며 프로그래밍 지식이 필요하지 않습니다!

이러한 핵심 과제를 해결하기 위해 VenusFactory는 데이터 수집, 작업 평가, 모델 미세 조정까지 완벽한 솔루션을 제공하는 원스톱 AI 기반 단백질 엔지니어링 플랫폼을 구축하여 생물학자와 계산 과학자가 연구를 효율적으로 진행할 수 있도록 했습니다.

과학적 혁신을 촉진하기 위한 오픈 소스 및 커뮤니티 공동 구축

과학 연구의 미래는 개방적인 공유에 달려 있습니다. VenusFactory는 Apache 2.0 라이센스를 사용합니다. 모든 코드, 데이터 세트, 모델 가중치는 완전히 오픈 소스입니다. 사용자는 최신 결과를 자유롭게 다운로드, 수정, 최적화하고 전 세계 연구자들과 공유할 수 있습니다. 모든 데이터, 모델, 미세 조정 코드는 GitHub 및 Hugging Face에 호스팅되어 전 세계 과학자가 실험에 쉽게 액세스하고 재현하고 VenusFactory를 기반으로 자신의 AI 연구 프로젝트를 구축할 수 있습니다.

독자들이 VenusFactory를 경험할 수 있도록 돕기 위해 HyperAI는 "VenusFactory 단백질 공학 설계 플랫폼"에 대한 원클릭 배포 튜토리얼을 출시했습니다. 다음은 사용법에 대한 자세한 소개입니다.

튜토리얼 링크: https://go.hyper.ai/ZqO3h

VenusFactory 단백질 공학 설계 플랫폼 튜토리얼

데모 실행

1. hyper.ai에 로그인하고 튜토리얼 페이지에서 VenusFactory Protein Engineering Design Platform을 선택한 다음, 이 튜토리얼을 온라인으로 실행을 클릭합니다.

2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. NVIDIA GeForce RTX 4090 및 PyTorch 이미지를 선택하고 계속을 클릭합니다. OpenBayes 플랫폼은 4가지 청구 방법을 제공합니다. 귀하의 요구 사항에 따라 "사용 후 결제" 또는 "일일/주간/월간 결제"를 선택할 수 있습니다. 신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!

HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. 리소스가 할당될 때까지 기다리세요. 첫 번째 클로닝 과정은 약 2분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다. 모델이 크기 때문에 WebUI 인터페이스를 표시하는 데 약 3분이 걸리며, 그렇지 않으면 "잘못된 게이트웨이"가 표시됩니다. API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.

효과 표시

1. 이 튜토리얼은 학습, 평가, 예측, 다운로드의 4개 모듈로 구성되어 있습니다. '수동'을 클릭하고 언어를 선택하여 각 모듈에 대한 자세한 지침을 확인하세요.

2. 교육 모듈

Training 모듈을 클릭하고 Protein Language Model에서 학습할 모델을 선택한 후 Dataset Configuration에서 학습 데이터를 구성합니다.

사용자 정의 데이터 세트를 사용해야 하는 경우 사용자 정의 데이터 세트 구성을 사용하고 데이터 세트 경로만 입력하면 됩니다(자세한 내용은 수동 사용 설명서를 참조하세요).

학습 모델 저장 경로를 설정하고 시작을 클릭하여 학습을 시작합니다.

이 시점에서 훈련 매개변수와 손실 곡선을 볼 수 있습니다.

3. 평가 모듈

평가 모듈을 클릭하고 학습을 통해 생성된 모델 경로와 학습된 모델을 구성하고, 데이터를 처리하고, 하이퍼파라미터를 조정하고 평가를 시작합니다.

4. 예측 모듈

예측 모듈을 클릭하고 학습된 모델과 학습된 모델에서 생성된 모델 경로를 구성하고 예측하려는 단백질 서열을 입력한 후 예측을 클릭하여 예측을 수행합니다.

단백질 서열 예시: MKTWFGHVLQ

5. 모듈 다운로드

이 인터페이스에서 단백질 데이터를 다운로드하려면 다운로드 모듈을 클릭하세요.

위의 내용은 "VenusFactory 단백질 공학 설계 플랫폼"을 사용하는 방법에 대한 자세한 튜토리얼입니다. 누구나 와서 체험해 볼 수 있습니다!