HyperAIHyperAI
منذ 2 أشهر

TOMG-Bench: تقييم نماذج اللغة الطبيعية على إنشاء الجزيئات المفتوحة القائمة على النص

Jiatong Li, Junxian Li, Yunqing Liu, Dongzhan Zhou, Qing Li
TOMG-Bench: تقييم نماذج اللغة الطبيعية على إنشاء الجزيئات المفتوحة القائمة على النص
الملخص

في هذه الورقة، نقترح معيار توليد الجزيئات المفتوح القائم على النص (TOMG-Bench)، وهو أول معيار لتقييم قدرة النماذج اللغوية الكبيرة (LLMs) على توليد جزيئات في مجال مفتوح. يشمل TOMG-Bench مجموعة بيانات تتكون من ثلاث مهمات رئيسية: تعديل الجزيء (MolEdit)، وتحسين الجزيء (MolOpt)، وتوليد جزيء مخصص (MolCustom). تحتوي كل مهمة على ثلاثة مهام فرعية، وكل مهمة فرعية تتكون من 5,000 عينة اختبار. نظراً للتعقيد الذاتي لتوليد الجزيئات في المجال المفتوح، فقد طورنا نظام تقييم آلي يساعد في قياس جودة ودقة الجزيئات المُنشَأة. كشف تقييمنا الشامل لـ 25 نموذجاً لغوياً كبيراً عن القيود الحالية والمناطق المحتملة للتحسين في اكتشاف الجزيئات القائمة على النص. بالإضافة إلى ذلك، بمساعدة OpenMolIns، وهي مجموعة بيانات متخصصة مقترحة لحل التحديات التي أثارها TOMG-Bench، تمكنت Llama3.1-8B من التفوق على جميع النماذج اللغوية الكبيرة العامة ذات المصدر المفتوح، وحتى تجاوزت GPT-3.5-turbo بنسبة 46.5% على TOMG-Bench. يمكن الوصول إلى شفرتنا ومجموعات البيانات الخاصة بنا عبر الرابط https://github.com/phenixace/TOMG-Bench.

TOMG-Bench: تقييم نماذج اللغة الطبيعية على إنشاء الجزيئات المفتوحة القائمة على النص | أحدث الأوراق البحثية | HyperAI