HyperAIHyperAI
منذ 2 أشهر

استكشاف التوافقات متعددة الحبوب المستندة إلى النقل الأمثل لاسترجاع النصوص والجزيئات

Zijun Min; Bingshuai Liu; Liang Zhang; Jia Song; Jinsong Su; Song He; Xiaochen Bo
استكشاف التوافقات متعددة الحبوب المستندة إلى النقل الأمثل لاسترجاع النصوص والجزيئات
الملخص

حققت مجال المعلومات الحيوية تقدماً كبيراً، مما جعل مهمة استرجاع النصوص-الجزيئات متعددة الأشكال مهمة حاسمة بشكل متزايد. تركز هذه المهمة على استرجاع بنية الجزيئات بدقة بناءً على الوصف النصي، من خلال مواءمة فعالة بين الوصف النصي والجزيئات لمساعدة الباحثين في تحديد المرشحين الجزيئيين المناسبين. ومع ذلك، فإن العديد من الأساليب الموجودة تتجاهل التفاصيل المتأصلة في بنيات الجزيء الفرعية. في هذا العمل، نقدم نموذج المواءمات المتعددة الحبيبية القائمة على النقل الأمثل (ORMA)، وهو أسلوب جديد يسهل المواءمات المتعددة الحبيبية بين الوصف النصي والجزيئات. يتضمن نموذجنا مُشفِّرًا للنصوص ومُشفِّرًا للجزيئات. يقوم مُشفِّر النصوص بمعالجة الوصف النصي لإنتاج تمثيلات على مستوى الكلمات ومستوى الجمل، بينما يتم نمذجة الجزيئات كرسوم بيانية هرمية غير متجانسة، تشمل عقد الذرات والمجموعات الكيميائية والجزيئات لاستخراج التمثيلات على هذه المستويات الثلاثة. ومن أهم الابتكارات في ORMA هو استخدام النقل الأمثل (Optimal Transport - OT) لمواءمة الكلمات مع المجموعات الكيميائية، مما يخلق تمثيلات متعددة الكلمات تدمج موائمة عدة كلمات مع المجموعات الكيميائية المقابلة لها. بالإضافة إلى ذلك، نستخدم التعلم التبايني لتحسين المواءمات متعددة الأشكال على ثلاث مقاييس مختلفة: كلمة-ذرة، كلمتين-مجموعة كيميائية، وجملة-جزيء، مما يضمن تعظيم الشبه بين أزواج النصوص-الجزيئيات التي تم مطابقتها بشكل صحيح وتقليل الشبه بين الأزواج غير المتطابقة. حسب علمنا، هذه هي المحاولة الأولى لاستكشاف المواءمات على مستويي المجموعة الكيميائية والكلمات المتعددة. تظهر نتائج التجارب على قاعدتي البيانات ChEBI-20 وPCdes أن ORMA يتفوق بشكل كبير على النماذج الرائدة الحالية (state-of-the-art - SOTA).

استكشاف التوافقات متعددة الحبوب المستندة إلى النقل الأمثل لاسترجاع النصوص والجزيئات | أحدث الأوراق البحثية | HyperAI