Mol2Lang-VLM: نماذج لغوية مُدرَّبة مسبقًا توليدية تُوجَّه بالرؤية والنص لتعزيز وصف الجزيئات من خلال دمج متعدد الوسائط

يُقدّم هذا البحث منهج Mol2Lang-VLM، وهو تحسين لطرق تحسين النماذج اللغوية التوليدية المُدرّبة مسبقًا لوصف الجزيئات باستخدام الميزات متعددة الوسائط، بهدف تحقيق توليد وصف أكثر دقة. تعتمد طريقةنا على كتل الترميز والفك في بنية المُحَوِّل (Transformer) من خلال إدخال طبقات فرعية ثالثة في كل منهما. بشكل خاص، نُدمج في كتلة الترميز ميزات من سلاسل SELFIES والصور الجزيئية، بينما تُدمج في كتلة الفك ميزات من سلاسل SMILES والوصف المرتبط بها. علاوةً على ذلك، نستخدم الانتباه عبر عدة رؤوس متقاطع (cross multi-head attention) بدلًا من الانتباه عبر عدة رؤوس التقليدي، مما يمكّن كتلة الفك من التركيز على مخرجات كتلة الترميز، وبالتالي دمج المعلومات السياقية المشفرة بشكل أفضل، ما يؤدي إلى توليد وصف أكثر دقة ودقة. أظهرت تقييمات الأداء على مجموعتي البيانات القياسيتين CheBI-20 وL+M-24 تفوق Mol2Lang-VLM، حيث حقق دقة وأداءً أعلى في توليد الوصف مقارنةً بالطرق الحالية. يمكن الوصول إلى الكود والبيانات المُعدّة مسبقًا عبر الرابط التالي: https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/.