HyperAIHyperAI
منذ 2 أشهر

DNABERT-2: نموذج أساسي فعال ومقاييس مرجعية لمتعدد الأجناس الجينومية

Zhihan Zhou; Yanrong Ji; Weijian Li; Pratik Dutta; Ramana Davuluri; Han Liu
DNABERT-2: نموذج أساسي فعال ومقاييس مرجعية لمتعدد الأجناس الجينومية
الملخص

فك شفرة التعقيدات اللغوية للجينوم هو مشكلة حاسمة في علم الأحياء، وقد أحرزت النماذج الأساسية المدربة مسبقًا مثل DNABERT و Nucleotide Transformer تقدمًا كبيرًا في هذا المجال. ومع ذلك، فإن معظم الأعمال السابقة اعتمدت بشكل كبير على الكميرات (k-mers)، وهي تباديل ثابتة الطول من A و T و C و G، كرمز للغة الجينوم نظرًا لبساطتها. ولكننا نعتقد أن عدم كفاءة الحساب والعينات التي يسببها تقسيم الكميرات (k-mer tokenization) هي العقبات الرئيسية في تطوير نماذج أساسية كبيرة للجينوم. نقدم رؤى مفاهيمية وتجريبية حول تقسيم الجينوم، مستندين إليها لنقترح استبدال تقسيم الكميرات بخوارزمية ضغط البيانات القائمة على الإحصاء المعروفة باسم ترميز الزوج الثنائي (Byte Pair Encoding - BPE)، والتي تقوم ببناء الرموز عن طريق دمج أكثر المقاطع الجينومية المتكررة معًا بشكل متكرر في السجل. نثبت أن ترميز الزوج الثنائي (BPE) لا يقتصر فقط على التغلب على قيود تقسيم الكميرات بل يستفيد أيضًا من كفاءة الحساب لتقسيم غير متداخل. بناءً على هذه الرؤى، نقدم DNABERT-2، وهو نموذج أساسي متطور للجينوم يتكيف مع محول الرموز الفعال ويستخدم استراتيجيات متعددة للتغلب على قيود طول المدخلات وتقليل وقت التشغيل واستهلاك الذاكرة وتعزيز قدرة النموذج. بالإضافة إلى ذلك، نحدد غياب معيار شامل ومُقيَّد للمقارنة العادلة بين النماذج كعقبة أخرى مهمة أمام فهم الجينوم. استجابةً لذلك، نقترح مجموعة بيانات تصنيف الجينوم الشاملة والمتنوعة بين الأجناس (Genome Understanding Evaluation - GUE)، والتي تجمع 36 مجموعة بيانات مختلفة عبر 9 مهام، تتراوح أطوال المدخلات فيها بين 70 و 10000 قاعدة. من خلال التجارب الشاملة باستخدام معيار GUE، نثبت أن DNABERT-2 يحقق أداءً مparable مع أفضل النماذج الحالية بأقل عدد من المعلمات بمقدار 21 مرة وبوقت تشغيل أقل بمقدار حوالي 92 مرة على بطاقات الرسوميات (GPU) أثناء التدريب المسبق.