TOMG-Bench: تقييم نماذج اللغة الطبيعية على إنشاء الجزيئات المفتوحة القائمة على النص

في هذه الورقة، نقترح معيار توليد الجزيئات المفتوح القائم على النص (TOMG-Bench)، وهو أول معيار لتقييم قدرة النماذج اللغوية الكبيرة (LLMs) على توليد جزيئات في مجال مفتوح. يشمل TOMG-Bench مجموعة بيانات تتكون من ثلاث مهمات رئيسية: تعديل الجزيء (MolEdit)، وتحسين الجزيء (MolOpt)، وتوليد جزيء مخصص (MolCustom). تحتوي كل مهمة على ثلاثة مهام فرعية، وكل مهمة فرعية تتكون من 5,000 عينة اختبار. نظراً للتعقيد الذاتي لتوليد الجزيئات في المجال المفتوح، فقد طورنا نظام تقييم آلي يساعد في قياس جودة ودقة الجزيئات المُنشَأة. كشف تقييمنا الشامل لـ 25 نموذجاً لغوياً كبيراً عن القيود الحالية والمناطق المحتملة للتحسين في اكتشاف الجزيئات القائمة على النص. بالإضافة إلى ذلك، بمساعدة OpenMolIns، وهي مجموعة بيانات متخصصة مقترحة لحل التحديات التي أثارها TOMG-Bench، تمكنت Llama3.1-8B من التفوق على جميع النماذج اللغوية الكبيرة العامة ذات المصدر المفتوح، وحتى تجاوزت GPT-3.5-turbo بنسبة 46.5% على TOMG-Bench. يمكن الوصول إلى شفرتنا ومجموعات البيانات الخاصة بنا عبر الرابط https://github.com/phenixace/TOMG-Bench.