HyperAIHyperAI
منذ 11 أيام

تعزيز التسمية التلقائية يُحسّن الترجمة بين الجزيئات واللغة الطبيعية

Zhiqiang Zhong, Simon Sataa-Yu Larsen, Haoyu Guo, Tao Tang, Kuangyu Zhou, Davide Mottin
تعزيز التسمية التلقائية يُحسّن الترجمة بين الجزيئات واللغة الطبيعية
الملخص

تركز التطورات الحديثة في الذكاء الاصطناعي للبحث البيولوجي على دمج البيانات الجزيئية مع اللغة الطبيعية لتسريع اكتشاف الأدوية. ومع ذلك، يُعد نقص التصنيفات عالية الجودة عائقًا يحد من التقدم في هذا المجال. يقدّم هذا البحث إطار عمل يُسمى LA$^3$ (إطار تحسين التصنيف التلقائي القائم على اللغة)، الذي يستخدم النماذج الكبيرة للغة لتعزيز المجموعات الحالية من البيانات، مما يُحسّن تدريب النماذج الذكية. ونُظهر فعالية LA$^3$ من خلال إنشاء مجموعة بيانات مُحسّنة تُسمى LaChEBI-20، حيث أعدنا صياغة التصنيفات الجزيئية بشكل منهجي من مجموعة بيانات معروفة. وتُحافظ هذه التصنيفات المُعاد صياغتها على المعلومات الجزيئية الأساسية، مع توفير تنوع أكبر في الهيكل الجملة واللغة المستخدمة. وباستخدام مجموعة LaChEBI-20، قمنا بتدريب نموذج LaMolT5 بناءً على معمارية معيارية لتعلم العلاقة بين تمثيلات الجزيئات والتصنيفات المُحسّنة.أظهرت النتائج التجريبية في مهام إنشاء جزيئات جديدة بناءً على النصوص (text-based de novo molecule generation) ووصف الجزيئات باستخدام النصوص (molecule captioning) أن نموذج LaMolT5 يتفوق على النماذج الرائدة حاليًا. وبشكل لافت، أدى دمج LA$^3$ إلى تحسينات تصل إلى 301% مقارنة بالمعمارية المعيارية. علاوةً على ذلك، قمنا بتوثيق فعالية LA$^3$ في تطبيقات مهمة في المهام المرئية (image)، والنصوص (text)، والرسوم البيانية (graph)، مما يؤكد مرونتها وقيمتها الوظيفية في مجالات متعددة.

تعزيز التسمية التلقائية يُحسّن الترجمة بين الجزيئات واللغة الطبيعية | أحدث الأوراق البحثية | HyperAI