ن-جرام الجراف: تمثيل بسيط غير مشرف للغرافات، مع تطبيقات على الجزيئات

تم تبني تقنيات التعلم الآلي مؤخرًا في العديد من التطبيقات في مجالات الطب والبيولوجيا والكيمياء وهندسة المواد. تعتبر مهمة التنبؤ بخصائص الجزيئات مهمةً مهمة، حيث تعمل كالروتين الرئيسي في العديد من التطبيقات اللاحقة مثل الفحص الافتراضي وتصميم الأدوية. على الرغم من الاهتمام المتزايد بهذه التقنيات، فإن التحدي الرئيسي يكمن في بناء تمثيلات مناسبة للجزيئات لخوارزميات التعلم. يقدم هذا البحث الرسم البياني N-gram (N-gram graph)، وهو تمثيل غير مشرف بسيط للجزيئات. يبدأ هذا الأسلوب بتضمين رؤوس الرسم البياني للجزيء. ثم يقوم ببناء تمثيل مضغوط للرسم البياني عن طريق تركيب تضمينات الرؤوس في مسارات قصيرة داخل الرسم البياني، والذي نثبت أنه يعادل شبكة عصبية بسيطة للرسوم البيانية لا تحتاج إلى تدريب. يمكن حساب هذه التمثيلات بكفاءة واستخدامها مع طرق التعلم المشرف لغرض التنبؤ. أظهرت التجارب التي أجريت على 60 مهمة من 10 قواعد بيانات معيارية مزاياه على كل من الشبكات العصبية الرائجة للرسوم البيانية والطرق التقليدية للتضمين. يتم تعزيز ذلك بالتحليل النظري الذي يوضح قوة تمثيله وقدرته على التنبؤ.