HyperAIHyperAI
منذ 16 أيام

BioMedGPT: نموذج مفتوح متعدد الوسائط مُدرّب مسبقًا على التوليد باستخدام محول التحفيز

Yizhen Luo, Jiahuan Zhang, Siqi Fan, Kai Yang, Yushuai Wu, Mu Qiao, Zaiqing Nie
BioMedGPT: نموذج مفتوح متعدد الوسائط مُدرّب مسبقًا على التوليد باستخدام محول التحفيز
الملخص

أظهرت النماذج الأساسية (FMs) أداءً متميزًا في مجموعة واسعة من المهام المستهدفة في مجالات متعددة. ومع ذلك، تواجه النماذج الأساسية العامة صعوبات في مواجهة المشكلات المحددة بالقطاع، نظرًا لقيود وصولها إلى بيانات التدريب الخاصة بقطاع معين. في مجال الطب الحيوي، توجد العديد من التنوعات البيولوجية، مثل الجزيئات والبروتينات والخلايا، والتي تُشفر بلغة الحياة وتمتلك فجوات كبيرة في التنوع عن اللغة الطبيعية البشرية. في هذه الورقة، نقدم BioMedGPT، وهو نموذج مُدرَّب مسبقًا متعدد الوسائط وقائم على التوليد (GPT) مفتوح المصدر في مجال الطب الحيوي، بهدف سد الفجوة بين لغة الحياة واللغة الطبيعية البشرية. يمكّن BioMedGPT المستخدمين من التواصل بسهولة مع تنوعات بيولوجية متنوعة عبر نصوص حرة، وهو ما يُعد أول نموذج من نوعه. يتم تحقيق محاذاة مختلف التنوعات البيولوجية مع اللغة الطبيعية من خلال نموذج لغوي توليدي كبير يُسمى BioMedGPT-LM. نُعلن عن إطلاق BioMedGPT-10B، الذي يوحد فضاءات الميزات الخاصة بالجزيئات والبروتينات واللغة الطبيعية من خلال الترميز والمحاذاة. ومن خلال التدريب الدقيق، يتفوق BioMedGPT-10B أو يوازي الأداء البشري، ويتفوق بشكل كبير على النماذج الأساسية العامة الأكبر حجمًا في مهمة الاستجابة للأسئلة في المجال الطبي الحيوي. كما يُظهر أداءً واعدًا في مهام الاستجابة للأسئلة المتعلقة بالجزيئات والبروتينات، مما يمكن أن يسرّع بشكل كبير اكتشاف أدوية جديدة وأهداف علاجية جديدة. بالإضافة إلى ذلك، يُعد BioMedGPT-LM-7B أول نموذج لغوي توليدي كبير مستند إلى Llama2 في المجال الطبي الحيوي، مما يجعله مناسبًا للاستخدام التجاري. وتم إتاحة كلا النموذجين BioMedGPT-10B وBioMedGPT-LM-7B مفتوح المصدر للمجتمع البحثي. علاوةً على ذلك، نُعلن عن نشر مجموعتي بيانات تم تجهيزهما بدقة لمحاذاة الوسائط المتعددة، وهما PubChemQA وUniProtQA. تتوفر جميع النماذج، والكود، ومجموعات البيانات على الرابط التالي: \url{https://github.com/PharMolix/OpenBioMed}.