التدريب المسبق للشبكات العصبية الرسومية على الجزيئات باستخدام الحد الأدنى لمعلومات الرسم البياني المشروط بالجزء الفرعي

تهدف هذه الدراسة إلى بناء نموذج مُدرَّب مسبقًا لشبكات التعلم الرسومية (GNN) على الجزيئات دون الحاجة إلى تسميات يدوية أو معرفة مسبقة. وعلى الرغم من الطرق المختلفة التي تم اقتراحها للتغلب على القيود المرتبطة بجمع الجزيئات المُصنَّفة، إلا أن الطرق السابقة للتدريب المسبق تعتمد بشكل كبير على الرسوم الفرعية الدلالية، أي المجموعات الوظيفية. ويرجع ذلك إلى أن التركيز فقط على المجموعات الوظيفية قد يؤدي إلى إغفال الفروق على مستوى الرسم البياني ككل. والتحدي الرئيسي في بناء نموذج GNN مُدرَّب مسبقًا على الجزيئات يتمثل في كيفية (1) إنشاء تمثيلات مميزة على مستوى الرسم البياني، و(2) اكتشاف المجموعات الوظيفية تلقائيًا دون معرفة مسبقة. ولحل هذه المشكلة، نقترح نموذجًا جديدًا يُسمى "الحاجز المعلومة الرسومي المشروط بالرسم الفرعي" (S-CGIB)، الذي يُستخدم لتدريب GNN تلقائيًا على التعرف على المجموعات الفرعية الأساسية (الأنسجة الرسومية الأساسية) والرسوم الفرعية المهمة. الفكرة الأساسية تكمن في أن الأنسجة الرسومية الأساسية تحتوي على معلومات مُختزلة وكافية تمكنها من إنتاج تمثيلات مميزة على مستوى الرسم البياني، وتمكّن من إعادة بناء الرسم البياني المدخل شرطًا بوجود الرسوم الفرعية المهمة عبر الجزيئات، وفقًا لمبدأ S-CGIB. ولاكتشاف الرسوم الفرعية المهمة دون معرفة مسبقة بالمجاميع الوظيفية، نقترح إنشاء مجموعة من المرشحات للمجموعات الوظيفية، أي الشبكات الذاتية (ego networks)، واستخدام تفاعل مبني على الانتباه بين الأنسجة الرسومية الأساسية والمرشحات. وعلى الرغم من أن هذه الرسوم الفرعية تم تحديدها من خلال التعلم ذاتيًا، فإن المجموعات المُتعلمة تتطابق مع المجموعات الوظيفية الحقيقية في العالم المادي. وتشير التجارب الواسعة على مجموعات بيانات جزيئية متعددة المجالات إلى تفوق نموذج S-CGIB.