UniRef50 蛋白质序列数据集
UniRef50 蛋白质序列数据集来自 UniProt 知识库,相关论文成果为「AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model」。
该数据集源自 UniProtKB,通过迭代聚类从 UniParc 序列中筛选得出(UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50),其中包含 41,546,293 条训练序列和 82,929 条验证序列。迭代流程确保了 UniRef50 代表性序列高质量、非冗余且多样化的特性,为蛋白质语言模型提供了覆盖广泛的蛋白质序列空间。