HyperAI초신경

APM 단백질 생성 데이터 세트

날짜

11일 전

크기

9.06 GB

기관

중국과학원(중국과학원)

발행 주소

zenodo.org

라이선스

其他

카테고리

이 데이터셋은 후난대학교, 중국과학원대학교, 그리고 ByteDance Seed Team이 2025년에 발표한 단백질 생성 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.단백질 복합체 설계를 위한 전 원자 생성 모델".

데이터 세트 구성

  • 단일 사슬 단백질 데이터 세트: PDB(18,684), Swiss-Prot(140,769), AFDB(28,041) 데이터베이스에서 수집한 다양한 단백질 유형과 기능을 다루는 187,494개의 샘플이 포함되어 있습니다.
  • 다중 사슬 단백질 데이터세트: 2~6개 사슬 단백질 복합체를 포함하는 11,620개의 샘플을 포함하고 있으며, 다중 사슬 모델링을 지원합니다. 이 데이터는 PDB 생물학적 조립 데이터에서 추출되었으며, SAbDab 항체 데이터베이스의 샘플, 길이가 30 미만인 사슬을 포함하는 샘플(펩타이드로 간주), 길이가 2,048을 초과하거나 클러스터 ID가 없는 샘플 등 세 가지 유형의 샘플은 제외되었습니다. 연구진은 훈련 과정에서 다중 사슬 샘플을 무작위로 트리밍했습니다. 384개 이상의 잔기를 가진 샘플은 사슬 간 결합 계면 잔기 쌍을 중심으로 배치하여 가장 가까운 384개 아미노산을 유지했습니다.

APM.torrent
시딩 1다운로드 중 0완료됨 2총 다운로드 횟수 7
  • APM/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • APM.zip
          9.06 GB