HyperAIHyperAI
منذ 17 أيام

CoTox: التفكير المتسلسل القائم على الجزيئات لتفسير السُمّية وتوقعها

Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
CoTox: التفكير المتسلسل القائم على الجزيئات لتفسير السُمّية وتوقعها
الملخص

تبقى السُّمّية الدوائية تحديًا رئيسيًا في تطوير الأدوية. وعلى الرغم من التطورات التي حققتها نماذج التعلم الآلي الحديثة في التنبؤ بالسمّية افتراضيًا، فإن اعتمادها على بيانات مُعلَّمة ونقصها في قابلية التفسير يحد من تطبيقها الفعلي، مما يقلل من قدرتها على اكتشاف السُّمّيات المحددة لأعضاء معينة الناتجة عن آليات بيولوجية معقدة. وتُعدّ النماذج اللغوية الكبيرة (LLMs) بديلًا واعدًا من خلال التفكير التدريجي ودمج البيانات النصية، لكن الطرق السابقة تعاني من غياب السياق البيولوجي وغياب تبرير واضح وشفاف. ولحل هذه المشكلة، نقترح إطارًا جديدًا يُدعى CoTox، يدمج بين النموذج اللغوي الكبير والتفكير المتسلسل (Chain-of-Thought, CoT) لتنبؤ متعدد بأنواع السُّمّية. يجمع CoTox بين بيانات البنية الكيميائية، والمسارات البيولوجية، ومراتب الجينات (GO) لتقديم تنبؤات سُمّية قابلة للتفسير من خلال عملية تفكير خطوة بخطوة. وباستخدام نموذج GPT-4o، نُظهر أن CoTox يتفوق على النماذج التقليدية للتعلم الآلي والتعلم العميق. كما نُجري تحليلًا أداءً نموذج CoTox عبر مجموعة متنوعة من النماذج اللغوية الكبيرة لتحديد المواقع التي يُظهر فيها أقصى كفاءة. بالإضافة إلى ذلك، نجد أن تمثيل البنية الكيميائية باستخدام أسماء IUPAC، التي تُعدّ أسهل لفهمها من قبل النماذج اللغوية الكبيرة مقارنةً بتمثيل SMILES، يعزز قدرة النموذج على التفكير ويعزز الأداء التنبؤي. ولإثبات الجدوى العملية لـ CoTox في تطوير الأدوية، قمنا بمحاكاة علاج أنواع خلوية ذات صلة بالدواء، ودمجنا السياق البيولوجي الناتج في إطار CoTox. وقد أتاح هذا النهج لـ CoTox إنتاج تنبؤات سُمّية متناغمة مع الاستجابات الفسيولوجية، كما أظهرت دراسة حالة. وتُبرز هذه النتائج الإمكانات الكبيرة للإطارات القائمة على النماذج اللغوية الكبيرة في تحسين قابلية التفسير ودعم تقييم السلامة الدوائية في المراحل المبكرة. يُمكن الاطلاع على الشفرة والأسئلة (prompts) المستخدمة في هذه الدراسة عبر الرابط التالي: https://github.com/dmis-lab/CoTox.