HyperAI超神经

UniRef50 蛋白质序列数据集

日期

5 days ago

发布地址

www.uniprot.org

分类

下载帮助

UniRef50 蛋白质序列数据集来自 UniProt 知识库,相关论文成果为「AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model」。

该数据集源自 UniProtKB,通过迭代聚类从 UniParc 序列中筛选得出(UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50),其中包含 41,546,293 条训练序列和 82,929 条验证序列。迭代流程确保了 UniRef50 代表性序列高质量、非冗余且多样化的特性,为蛋白质语言模型提供了覆盖广泛的蛋白质序列空间。