Command Palette
Search for a command to run...
UniRef50-Proteinsequenzdatensatz
Datum
Veröffentlichungs-URL
Paper-URL
Der UniRef50-Proteinsequenzdatensatz stammt aus der UniProt-Wissensdatenbank und die zugehörigen Papierergebnisse sind „AMix-1: Ein Weg zum testzeitskalierbaren Protein-Grundlagenmodell".
Dieser Datensatz, abgeleitet von UniProtKB und gefiltert aus UniParc-Sequenzen durch iteratives Clustering (UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50), enthält 41.546.293 Trainingssequenzen und 82.929 Validierungssequenzen. Dieser iterative Prozess gewährleistet eine qualitativ hochwertige, redundante und vielfältige Darstellung der UniRef50-Sequenzen und bietet eine umfassende Abdeckung des Proteinsequenzraums für Proteinsprachenmodelle.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.