أحدث نماذج التحويل المعززة بالمعالجة الطبيعية للغة للاسترجاع الكيميائي المباشر والخطوة الواحدة

قمنا بدراسة تأثير سيناريوهات التدريب المختلفة على التنبؤ بـ (الانحلال) التركيب الكيميائي للمركب باستخدام تمثيل نصي لردود الفعل الكيميائية (SMILES) وعمارة الشبكة العصبية Transformer في معالجة اللغات الطبيعية. أظهرنا أن زيادة البيانات، وهي طريقة قوية تستخدم في معالجة الصور، قد ألغت تأثير حفظ البيانات من قبل الشبكات العصبية، وحسنت أدائها في التنبؤ بالسلسلات الجديدة. تم ملاحظة هذا التأثير عند استخدام الزيادة بشكل متزامن لكل من بيانات الإدخال والهدف. بلغت دقة الترتيب الخامس 84.8% في التنبؤ بالشظية الأكبر (وبالتالي تحديد التحويل الرئيسي للانحلال الكلاسيكي) لمجموعة الاختبار USPTO-50k، وقد تم تحقيق ذلك من خلال الجمع بين زيادة SMILES وخوارزمية البحث بالشعاع. قدم النهج نفسه نتائج أفضل بكثير في التنبؤ بالردود الفعل المباشرة من مجموعة الاختبار USPTO-MIT ذات الخطوة الواحدة. حققت نموذجتنا دقة تصل إلى 90.6% في الترتيب الأول و96.1% في الترتيب الخامس لمجموعتها المختلطة الصعبة، ودقة تصل إلى 97% في الترتيب الخامس لمجموعة USPTO-MIT المنفصلة. كما أظهرت تحسينًا كبيرًا في نتائج مجموعة USPTO-full لخطوة واحدة من الانحلال، لكل من دقة الترتيب الأول والترتيب العاشر. كانت تكرارات ظهور SMILES الأكثر إنتاجًا مرتبطة جيدًا بنتيجة التنبؤ ويمكن استخدامها كمقياس لجودة توقع الرد الفعلي.