HyperAIHyperAI
منذ 2 أشهر

LDMol: نموذج تفتيت من النص إلى الجزيئات مع فضاء كامن معلوماتي هيكلي يتفوق على النماذج AR

Jinho Chang; Jong Chul Ye
LDMol: نموذج تفتيت من النص إلى الجزيئات مع فضاء كامن معلوماتي هيكلي يتفوق على النماذج AR
الملخص

مع ظهور نماذج الانتشار كأحد النماذج الجenerative الرئيسية، اقترح العديد من الباحثين تقنيات لتوليد الجزيئات باستخدام نماذج الانتشار المشروطة. ومع ذلك، فإن التجزئة غير القابلة للتجاهل في جزيء يجعل من الصعب لنموذج الانتشار ربط البيانات الأولية بشروط معقدة للغاية مثل اللغة الطبيعية. لحل هذه المشكلة، نقدم هنا نموذج انتشار خفي جديد يُطلق عليه اسم LDMol (Latent Diffusion Model for Molecules) لتوليد الجزيئات المشروطة بالنص. من خلال الإدراك أن تصميم الفضاء الخفي المناسب هو المفتاح لأداء نموذج الانتشار، نستخدم استراتيجية التعلم التضاد (contrastive learning) لاستخراج فضاء ميزات جديد من بيانات النص التي تضم الخصائص الفريدة لهيكل الجزيء. أظهرت التجارب أن LDMol يتفوق على النماذج الذاتية الانحدارية الحالية في معيار توليد الجزيء من النص، وهو أحد أول نماذج الانتشار التي تتفوق على النماذج الذاتية الانحدارية في توليد البيانات النصية بفضل اختيار أفضل للفضاء الخفي. علاوة على ذلك، أظهرنا أن LDMol يمكن تطبيقه على المهام الثانوية مثل استرجاع الجزيء من النص وتحرير الجزيء ب导读 النص، مما يدل على مرونته كنموذج انتشار.

LDMol: نموذج تفتيت من النص إلى الجزيئات مع فضاء كامن معلوماتي هيكلي يتفوق على النماذج AR | أحدث الأوراق البحثية | HyperAI