HyperAIHyperAI

Command Palette

Search for a command to run...

DNABERT-2: نموذج أساسي فعال ومقاييس مرجعية لمتعدد الأجناس الجينومية

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

الملخص

فك شفرة التعقيدات اللغوية للجينوم هو مشكلة حاسمة في علم الأحياء، وقد أحرزت النماذج الأساسية المدربة مسبقًا مثل DNABERT و Nucleotide Transformer تقدمًا كبيرًا في هذا المجال. ومع ذلك، فإن معظم الأعمال السابقة اعتمدت بشكل كبير على الكميرات (k-mers)، وهي تباديل ثابتة الطول من A و T و C و G، كرمز للغة الجينوم نظرًا لبساطتها. ولكننا نعتقد أن عدم كفاءة الحساب والعينات التي يسببها تقسيم الكميرات (k-mer tokenization) هي العقبات الرئيسية في تطوير نماذج أساسية كبيرة للجينوم. نقدم رؤى مفاهيمية وتجريبية حول تقسيم الجينوم، مستندين إليها لنقترح استبدال تقسيم الكميرات بخوارزمية ضغط البيانات القائمة على الإحصاء المعروفة باسم ترميز الزوج الثنائي (Byte Pair Encoding - BPE)، والتي تقوم ببناء الرموز عن طريق دمج أكثر المقاطع الجينومية المتكررة معًا بشكل متكرر في السجل. نثبت أن ترميز الزوج الثنائي (BPE) لا يقتصر فقط على التغلب على قيود تقسيم الكميرات بل يستفيد أيضًا من كفاءة الحساب لتقسيم غير متداخل. بناءً على هذه الرؤى، نقدم DNABERT-2، وهو نموذج أساسي متطور للجينوم يتكيف مع محول الرموز الفعال ويستخدم استراتيجيات متعددة للتغلب على قيود طول المدخلات وتقليل وقت التشغيل واستهلاك الذاكرة وتعزيز قدرة النموذج. بالإضافة إلى ذلك، نحدد غياب معيار شامل ومُقيَّد للمقارنة العادلة بين النماذج كعقبة أخرى مهمة أمام فهم الجينوم. استجابةً لذلك، نقترح مجموعة بيانات تصنيف الجينوم الشاملة والمتنوعة بين الأجناس (Genome Understanding Evaluation - GUE)، والتي تجمع 36 مجموعة بيانات مختلفة عبر 9 مهام، تتراوح أطوال المدخلات فيها بين 70 و 10000 قاعدة. من خلال التجارب الشاملة باستخدام معيار GUE، نثبت أن DNABERT-2 يحقق أداءً مparable مع أفضل النماذج الحالية بأقل عدد من المعلمات بمقدار 21 مرة وبوقت تشغيل أقل بمقدار حوالي 92 مرة على بطاقات الرسوميات (GPU) أثناء التدريب المسبق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp