HyperAI

UniRef50 단백질 서열 데이터 세트는 UniProt 지식 기반에서 가져온 것이며 관련 논문 결과는 다음과 같습니다.AMix-1: 테스트 시간 확장 가능 단백질 기반 모델로 가는 길".

UniProtKB에서 파생되고 UniParc 시퀀스에서 반복적 클러스터링(UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50)을 통해 필터링된 이 데이터셋은 41,546,293개의 훈련 시퀀스와 82,929개의 검증 시퀀스를 포함합니다. 이러한 반복적 과정을 통해 UniRef50 시퀀스의 고품질, 비중복성, 다양성을 보장하여 단백질 언어 모델에 대한 단백질 시퀀스 공간의 광범위한 커버리지를 제공합니다.

UniRef50 단백질 서열 데이터 세트

AI로 AI 구축

Hyper Newsletters

Command Palette

UniRef50 단백질 서열 데이터 세트

AI로 AI 구축

Hyper Newsletters