Command Palette
Search for a command to run...
تعزيز التسمية التلقائية يُحسّن الترجمة بين الجزيئات واللغة الطبيعية
تعزيز التسمية التلقائية يُحسّن الترجمة بين الجزيئات واللغة الطبيعية
Zhiqiang Zhong Simon Sataa-Yu Larsen Haoyu Guo Tao Tang Kuangyu Zhou Davide Mottin
الملخص
تركز التطورات الحديثة في الذكاء الاصطناعي للبحث البيولوجي على دمج البيانات الجزيئية مع اللغة الطبيعية لتسريع اكتشاف الأدوية. ومع ذلك، يُعد نقص التصنيفات عالية الجودة عائقًا يحد من التقدم في هذا المجال. يقدّم هذا البحث إطار عمل يُسمى LA3 (إطار تحسين التصنيف التلقائي القائم على اللغة)، الذي يستخدم النماذج الكبيرة للغة لتعزيز المجموعات الحالية من البيانات، مما يُحسّن تدريب النماذج الذكية. ونُظهر فعالية LA3 من خلال إنشاء مجموعة بيانات مُحسّنة تُسمى LaChEBI-20، حيث أعدنا صياغة التصنيفات الجزيئية بشكل منهجي من مجموعة بيانات معروفة. وتُحافظ هذه التصنيفات المُعاد صياغتها على المعلومات الجزيئية الأساسية، مع توفير تنوع أكبر في الهيكل الجملة واللغة المستخدمة. وباستخدام مجموعة LaChEBI-20، قمنا بتدريب نموذج LaMolT5 بناءً على معمارية معيارية لتعلم العلاقة بين تمثيلات الجزيئات والتصنيفات المُحسّنة.أظهرت النتائج التجريبية في مهام إنشاء جزيئات جديدة بناءً على النصوص (text-based de novo molecule generation) ووصف الجزيئات باستخدام النصوص (molecule captioning) أن نموذج LaMolT5 يتفوق على النماذج الرائدة حاليًا. وبشكل لافت، أدى دمج LA3 إلى تحسينات تصل إلى 301% مقارنة بالمعمارية المعيارية. علاوةً على ذلك، قمنا بتوثيق فعالية LA3 في تطبيقات مهمة في المهام المرئية (image)، والنصوص (text)، والرسوم البيانية (graph)، مما يؤكد مرونتها وقيمتها الوظيفية في مجالات متعددة.