HyperAIHyperAI
منذ 11 أيام

Mol2Lang-VLM: نماذج لغوية مُدرَّبة مسبقًا توليدية تُوجَّه بالرؤية والنص لتعزيز وصف الجزيئات من خلال دمج متعدد الوسائط

{and Balachandran Manavalan, Nguyen Nguyen, Nhat Truong Pham, Duong Tran}
Mol2Lang-VLM: نماذج لغوية مُدرَّبة مسبقًا توليدية تُوجَّه بالرؤية والنص لتعزيز وصف الجزيئات من خلال دمج متعدد الوسائط
الملخص

يُقدّم هذا البحث منهج Mol2Lang-VLM، وهو تحسين لطرق تحسين النماذج اللغوية التوليدية المُدرّبة مسبقًا لوصف الجزيئات باستخدام الميزات متعددة الوسائط، بهدف تحقيق توليد وصف أكثر دقة. تعتمد طريقةنا على كتل الترميز والفك في بنية المُحَوِّل (Transformer) من خلال إدخال طبقات فرعية ثالثة في كل منهما. بشكل خاص، نُدمج في كتلة الترميز ميزات من سلاسل SELFIES والصور الجزيئية، بينما تُدمج في كتلة الفك ميزات من سلاسل SMILES والوصف المرتبط بها. علاوةً على ذلك، نستخدم الانتباه عبر عدة رؤوس متقاطع (cross multi-head attention) بدلًا من الانتباه عبر عدة رؤوس التقليدي، مما يمكّن كتلة الفك من التركيز على مخرجات كتلة الترميز، وبالتالي دمج المعلومات السياقية المشفرة بشكل أفضل، ما يؤدي إلى توليد وصف أكثر دقة ودقة. أظهرت تقييمات الأداء على مجموعتي البيانات القياسيتين CheBI-20 وL+M-24 تفوق Mol2Lang-VLM، حيث حقق دقة وأداءً أعلى في توليد الوصف مقارنةً بالطرق الحالية. يمكن الوصول إلى الكود والبيانات المُعدّة مسبقًا عبر الرابط التالي: https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/.

Mol2Lang-VLM: نماذج لغوية مُدرَّبة مسبقًا توليدية تُوجَّه بالرؤية والنص لتعزيز وصف الجزيئات من خلال دمج متعدد الوسائط | أحدث الأوراق البحثية | HyperAI