منذ 8 أشهر

الملخص

فك شفرة التعقيدات اللغوية للجينوم هو مشكلة حاسمة في علم الأحياء، وقد أحرزت النماذج الأساسية المدربة مسبقًا مثل DNABERT و Nucleotide Transformer تقدمًا كبيرًا في هذا المجال. ومع ذلك، فإن معظم الأعمال السابقة اعتمدت بشكل كبير على الكميرات (k-mers)، وهي تباديل ثابتة الطول من A و T و C و G، كرمز للغة الجينوم نظرًا لبساطتها. ولكننا نعتقد أن عدم كفاءة الحساب والعينات التي يسببها تقسيم الكميرات (k-mer tokenization) هي العقبات الرئيسية في تطوير نماذج أساسية كبيرة للجينوم. نقدم رؤى مفاهيمية وتجريبية حول تقسيم الجينوم، مستندين إليها لنقترح استبدال تقسيم الكميرات بخوارزمية ضغط البيانات القائمة على الإحصاء المعروفة باسم ترميز الزوج الثنائي (Byte Pair Encoding - BPE)، والتي تقوم ببناء الرموز عن طريق دمج أكثر المقاطع الجينومية المتكررة معًا بشكل متكرر في السجل. نثبت أن ترميز الزوج الثنائي (BPE) لا يقتصر فقط على التغلب على قيود تقسيم الكميرات بل يستفيد أيضًا من كفاءة الحساب لتقسيم غير متداخل. بناءً على هذه الرؤى، نقدم DNABERT-2، وهو نموذج أساسي متطور للجينوم يتكيف مع محول الرموز الفعال ويستخدم استراتيجيات متعددة للتغلب على قيود طول المدخلات وتقليل وقت التشغيل واستهلاك الذاكرة وتعزيز قدرة النموذج. بالإضافة إلى ذلك، نحدد غياب معيار شامل ومُقيَّد للمقارنة العادلة بين النماذج كعقبة أخرى مهمة أمام فهم الجينوم. استجابةً لذلك، نقترح مجموعة بيانات تصنيف الجينوم الشاملة والمتنوعة بين الأجناس (Genome Understanding Evaluation - GUE)، والتي تجمع 36 مجموعة بيانات مختلفة عبر 9 مهام، تتراوح أطوال المدخلات فيها بين 70 و 10000 قاعدة. من خلال التجارب الشاملة باستخدام معيار GUE، نثبت أن DNABERT-2 يحقق أداءً مparable مع أفضل النماذج الحالية بأقل عدد من المعلمات بمقدار 21 مرة وبوقت تشغيل أقل بمقدار حوالي 92 مرة على بطاقات الرسوميات (GPU) أثناء التدريب المسبق.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DNABERT-2: نموذج أساسي فعال ومقاييس مرجعية لمتعدد الأجناس الجينومية

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DNABERT-2: نموذج أساسي فعال ومقاييس مرجعية لمتعدد الأجناس الجينومية

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DNABERT-2: نموذج أساسي فعال ومقاييس مرجعية لمتعدد الأجناس الجينومية

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters