توليد جزيئات موجه بالنص باستخدام نموذج اللغة التفاضلي

توليد الجزيئات بقيادة النص هو مهمة يتم فيها إنشاء جزيئات لتتوافق مع وصف نصي محدد. مؤخرًا، تعتمد معظم الطرق الحالية لـ توليد الجزيئات باستخدام SMILES على هندسة ذاتية الترسيم (autoregressive). في هذا العمل، نقترح توليد الجزيئات بقيادة النص باستخدام نموذج اللغة التفاضلي (Text-Guided Molecule Generation with Diffusion Language Model - TGM-DLM)، وهو منهج جديد يستفيد من نماذج التفاضل لمعالجة قيود الطرق ذاتية الترسيم. يقوم TGM-DLM بتحديث متجهات الرموز داخل سلسلة SMILES بشكل جماعي وتكراري، باستخدام عملية توليد تفاضلية ثنائية المرحلة. تُحسِّن المرحلة الأولى المتجهات من الضوضاء العشوائية، بقيادة الوصف النصي، بينما تقوم المرحلة الثانية بإصلاح سلاسل SMILES غير صالحة لتشكيل تمثيلات جزيئية صالحة. نثبت أن TGM-DLM يتفوق على MolT5-Base، وهو نموذج ذاتي الترسيم، دون الحاجة إلى موارد بيانات إضافية. تؤكد نتائجنا الفعالية الملحوظة لـ TGM-DLM في إنشاء جزيئات متناسقة ودقيقة تحتوي على خصائص محددة، مما يفتح آفاقًا جديدة في اكتشاف الأدوية及相关科学领域。代码将在以下地址发布:https://github.com/Deno-V/tgm-dlm.请注意,最后一句中“及相关科学领域”部分在阿拉伯语中应为:والمجالات العلمية ذات الصلة因此,完整的翻译应为:توليد الجزيئات بقيادة النص هو مهمة يتم فيها إنشاء جزيئات لتتوافق مع وصف نصي محدد. مؤخرًا، تعتمد معظم الطرق الحالية لـ توليد الجزيئات باستخدام SMILES على هندسة ذاتية الترسيم (autoregressive). في هذا العمل، نقترح توليد الجزيئات بقيادة النص باستخدام نموذج اللغة التفاضلي (Text-Guided Molecule Generation with Diffusion Language Model - TGM-DLM)، وهو منهج جديد يستفيد من نماذج التفاضل لمعالجة قيود الطرق ذاتية الترسيم. يقوم TGM-DLM بتحديث متجهات الرموز داخل سلسلة SMILES بشكل جماعي وتكراري، باستخدام عملية توليد تفاضلية ثنائية المرحلة. تُحسِّن المرحلة الأولى المتجهات من الضوضاء العشوائية، بقيادة الوصف النصي، بينما تقوم المرحلة الثانية بإصلاح سلاسل SMILES غير صالحة لتشكيل تمثيلات جزيئية صالحة. نثبت أن TGM-DLM يتفوق على MolT5-Base، وهو نموذج ذاتي الترسيم، دون الحاجة إلى موارد بيانات إضافية. تؤكد نتائجنا الفعالية الملحوظة لـ TGM-DLM في إنشاء جزيئات متناسقة ودقيقة تحتوي على خصائص محددة، مما يفتح آفاقًا جديدة في اكتشاف الأدوية والمجالات العلمية ذات الصلة. سيتم إطلاق الكود في: https://github.com/Deno-V/tgm-dlm.