الترجمة بين الجزيئات واللغة الطبيعية

نقدم إطارًا للتعلم الذاتي بدون إشراف يُسمى MolT5، وهو مخصص لتدريب النماذج على كميات هائلة من النصوص اللغوية الطبيعية غير المصنفة وسلسلة الجزيئات. يتيح MolT5 تناظرات جديدة ومفيدة وتحديّة لمهمات الرؤية واللغة التقليدية، مثل توضيح الجزيئات وإنشاء جزيئات جديدة بناءً على النص (بشكل عام: الترجمة بين الجزيئات واللغة)، وهي مهمات نستكشفها لأول مرة. نظرًا لأن MolT5 يقوم بتدريب النماذج على بيانات أحادية الوضع، فإنه يساعد في التغلب على مشكلة ندرة البيانات في مجال الكيمياء. بالإضافة إلى ذلك، نحن نأخذ بعين الاعتبار عدة مقاييس، بما في ذلك مؤشر جديد يستند إلى التضمين عبر الأوضاع (cross-modal embedding-based metric)، لتقييم مهمتي توضيح الجزيئات وإنشاء الجزيئات بناءً على النص. تظهر نتائجنا أن النماذج المستندة إلى MolT5 قادرة على إنتاج مخرجات عالية الجودة، سواء كانت جزيئات أو توضيحات، في العديد من الحالات.