MolFM: نموذج أساسي جزيئي متعدد الوسائط

المعرفة الجزيئية توجد في ثلاثة أنماط مختلفة من مصادر المعلومات: الهياكل الجزيئية، الوثائق الطبية الحيوية، وقواعد المعرفة. يحمل دمج المعرفة الجزيئية بفعالية من هذه الأنماط أهمية قصوى في تسهيل البحث الطبي الحيوي. ومع ذلك، فإن النماذج الجزيئية الأساسية متعددة الأوضاع الموجودة حالياً تعاني من حدود في التقاط الروابط المعقدة بين الهياكل الجزيئية والنصوص، وأهم من ذلك، لا يوجد منها أي نموذج يحاول الاستفادة من الثروة الكبيرة من الخبرات الجزيئية المستمدة من الرسوم البيانية للمعرفة. في هذه الدراسة، نقدم MolFM (MolFM)، وهو نموذج جزيء أساسي متعدد الأوضاع مصمم لتسهيل التعلم المشترك للتمثيلات من الهياكل الجزيئية، النصوص الطبية الحيوية، والرسوم البيانية للمعرفة. نقترح انتباهًا عبر الأوضاع بين ذرات الهياكل الجزيئية، جيران كيانات الجزء والنصوص ذات العلاقة الدلالية لتسهيل الفهم عبر الأوضاع. نقدم تحليلًا نظريًا يوضح أن التدريب الأولي عبر الأوضاع لدينا يلتقط المعرفة الجزيئية المحلية والعالمية عن طريق تقليل المسافة في فضاء الخصائص بين أوضاع مختلفة لنفس الجزء وكذلك بين الأجزاء التي تشترك في هياكل أو وظائف مشابهة. يصل MolFM إلى أفضل أداء على مجموعة متنوعة من المهام اللاحقة. في استرجاع البيانات عبر الأوضاع، يتفوق MolFM على النماذج الموجودة بنسبة زيادة مطلقة قدرها 12.13٪ و5.04٪ تحت إعدادات الصفر والضبط الدقيق على التوالي. بالإضافة إلى ذلك، تظهر التحليلات النوعية قدرة MolFM الضمنية على توفير أساس من الهياكل الفرعية للجزيئات والرسوم البيانية للمعرفة. يمكن الحصول على الشيفرات البرمجية والنماذج من https://github.com/BioFM/OpenBioMed.