UniRef50 단백질 서열 데이터 세트
UniRef50 단백질 서열 데이터 세트는 UniProt 지식 기반에서 가져온 것이며 관련 논문 결과는 다음과 같습니다.AMix-1: 테스트 시간 확장 가능 단백질 기반 모델로 가는 길".
UniProtKB에서 파생되고 UniParc 시퀀스에서 반복적 클러스터링(UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50)을 통해 필터링된 이 데이터셋은 41,546,293개의 훈련 시퀀스와 82,929개의 검증 시퀀스를 포함합니다. 이러한 반복적 과정을 통해 UniRef50 시퀀스의 고품질, 비중복성, 다양성을 보장하여 단백질 언어 모델에 대한 단백질 시퀀스 공간의 광범위한 커버리지를 제공합니다.