Command Palette

Search for a command to run...

UniRef50 蛋白质序列数据集

日期

3 个月前

发布地址

www.uniprot.org

论文链接

arxiv.org

加入 Discord 社区

UniRef50 蛋白质序列数据集来自 UniProt 知识库,相关论文成果为「AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model」。

该数据集源自 UniProtKB,通过迭代聚类从 UniParc 序列中筛选得出(UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50),其中包含 41,546,293 条训练序列和 82,929 条验证序列。迭代流程确保了 UniRef50 代表性序列高质量、非冗余且多样化的特性,为蛋白质语言模型提供了覆盖广泛的蛋白质序列空间。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供