UniRef50-Proteinsequenzdatensatz
Der UniRef50-Proteinsequenzdatensatz stammt aus der UniProt-Wissensdatenbank und die zugehörigen Papierergebnisse sind „AMix-1: Ein Weg zum testzeitskalierbaren Protein-Grundlagenmodell".
Dieser Datensatz, abgeleitet von UniProtKB und gefiltert aus UniParc-Sequenzen durch iteratives Clustering (UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50), enthält 41.546.293 Trainingssequenzen und 82.929 Validierungssequenzen. Dieser iterative Prozess gewährleistet eine qualitativ hochwertige, redundante und vielfältige Darstellung der UniRef50-Sequenzen und bietet eine umfassende Abdeckung des Proteinsequenzraums für Proteinsprachenmodelle.