مجموعة بيانات تسلسل بروتين UniRef50
مجموعة بيانات تسلسل بروتين UniRef50 مأخوذة من قاعدة المعرفة UniProt، ونتائج الورقة ذات الصلة هي "AMix-1: مسار نحو نموذج أساس البروتين القابل للتطوير بمرور الوقت".
تحتوي مجموعة البيانات هذه، المُشتقة من UniProtKB والمُرشَّحة من تسلسلات UniParc عبر التجميع التكراري (UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50)، على 41,546,293 تسلسل تدريب و82,929 تسلسل تحقق. تضمن هذه العملية التكرارية تمثيلًا عالي الجودة، غير مُكرر، ومتنوعًا لتسلسلات UniRef50، مما يوفر تغطية شاملة لمساحة تسلسل البروتين لنماذج لغة البروتين.