HyperAI

مجموعة بيانات تسلسل بروتين UniRef50

التاريخ

منذ 5 أيام

رابط النشر

www.uniprot.org

مساعدة التنزيل

مجموعة بيانات تسلسل بروتين UniRef50 مأخوذة من قاعدة المعرفة UniProt، ونتائج الورقة ذات الصلة هي "AMix-1: مسار نحو نموذج أساس البروتين القابل للتطوير بمرور الوقت".

تحتوي مجموعة البيانات هذه، المُشتقة من UniProtKB والمُرشَّحة من تسلسلات UniParc عبر التجميع التكراري (UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50)، على 41,546,293 تسلسل تدريب و82,929 تسلسل تحقق. تضمن هذه العملية التكرارية تمثيلًا عالي الجودة، غير مُكرر، ومتنوعًا لتسلسلات UniRef50، مما يوفر تغطية شاملة لمساحة تسلسل البروتين لنماذج لغة البروتين.