GIT-Mol: نموذج لغوي كبير متعدد الوسائط للعلوم الجزيئية مع الرسم البياني والصورة والنص

حققت النماذج اللغوية الكبيرة تقدمًا كبيرًا في معالجة اللغة الطبيعية، مما مكّن من تطبيقات مبتكرة في علوم الجزيئات من خلال معالجة التمثيلات النصية للجزيئات. ومع ذلك، فإن معظم النماذج اللغوية الحالية لا تستطيع التقاط المعلومات الغنية ذات الهياكل الجزيئية المعقدة أو الصور. في هذا البحث، نقدم GIT-Mol، وهو نموذج لغوي كبير متعدد الوسائط يدمج معلومات الرسم البياني (Graph)، الصورة (Image)، والنص (Text). لتسهيل دمج البيانات الجزيئية المتعددة الوسائط، نقترح GIT-Former، وهي هندسة جديدة قادرة على مواءمة جميع الوسائط في فضاء كامن موحد. حققنا زيادة في الدقة بنسبة 5٪ إلى 10٪ في التنبؤ بالخصائص وزيادة بنسبة 20.2٪ في صحة إنشاء الجزيء مقارنة بالأساسيات. باستخدام استراتيجية الترجمة الجزيئية من أي وسائط إلى اللغة، يمكن لنموذجنا أن يقوم بمزيد من المهام الثانوية مثل التعرف على اسم المركب والتنبؤ بالتفاعلات الكيميائية.