HyperAIHyperAI
منذ 9 أيام

Transformer الرسومي التلقائي التدريب على بيانات جزيئية ضخمة

Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang, Junzhou Huang
Transformer الرسومي التلقائي التدريب على بيانات جزيئية ضخمة
الملخص

كيفية الحصول على تمثيلات معلوماتية للجزيئات تمثل شرطًا أساسيًا مهمًا في تصميم الأدوية والابتكار المدعوم بالذكاء الاصطناعي. في الدراسات الحديثة، تم تمثيل الجزيئات على هيئة رسم بياني (Graph)، واستُخدمت الشبكات العصبية الرسومية (GNNs) لتعلم تمثيل الجزيئات. ومع ذلك، تعيق هاتان المشكلتان استخدام GNNs في السياقات الواقعية: (1) نقص الجزيئات المُعلّمة في التدريب المراقب؛ (2) ضعف القدرة على التعميم تجاه جزيئات جديدة تم تصنيعها. لمعالجة كلا المشكلتين معًا، نقترح إطارًا جديدًا يُسمى GROVER، وهو اختصار لـ "Graph Representation frOm self-superVised mEssage passing tRansformer" (تمثيل الرسم البياني من خلال تبادل الرسائل ذاتية التعلّم المبني على نموذج المحولات). من خلال مهام ذاتية التعلّم المُصممة بدقة على مستويات العقدة، والحرف، والرسم البياني، يمكن لـ GROVER استخلاص معلومات هيكلية ودلالية غنية من كميات هائلة من البيانات الجزيئية غير المُعلّمة. وبما أن تشفير هذه المعلومات المعقدة يتطلب أدوات متقدمة، يدمج GROVER شبكات تبادل الرسائل (Message Passing Networks) في بنية مماثلة لمحولات (Transformer)، مما يُنتج نوعًا من مشغلات التمثيل الجزيئي أكثر تعبيرًا. وتتيح المرونة التي يتمتع بها GROVER تدريبه بكفاءة على مجموعات بيانات جزيئية ضخمة دون الحاجة إلى أي تدريب مراقب، مما يجعله مناعًا للعوامل المذكورة أعلاه. قمنا بتدريب GROVER مسبقًا باستخدام 100 مليون معلمة على 10 ملايين جزيء غير مُعلّم – وهي أكبر شبكة عصبية رسومية (GNN) وأكبر مجموعة تدريب في مجال تمثيل الجزيئات. ثم استخدمنا GROVER المُدرّب مسبقًا لتوقع خصائص الجزيئات، متبوعًا بضبط دقيق مخصص للمهام، حيث لاحظنا تحسنًا كبيرًا (أكثر من 6% في المتوسط) مقارنةً بأفضل الطرق الحالية على 11 معيارًا صعبًا. وتُظهر النتائج أن خسائر التعلّم الذاتي المُصممة جيدًا، إلى جانب النماذج المُدرّبة مسبقًا ذات التعبير العالي، تمتلك إمكانات كبيرة لتحسين الأداء.

Transformer الرسومي التلقائي التدريب على بيانات جزيئية ضخمة | أحدث الأوراق البحثية | HyperAI