HyperAI
Back to Headlines

علماء من ETH وزملاؤهم يطورون MIRIAD: قاعدة بيانات ضخمة لتحسين دقة نماذج اللغة في الذكاء الاصطناعي الطبي

منذ 2 أيام

ملخص أبحاث ETH وStanford: تقديم MIRIAD لتحسين دقة نماذج اللغة الكبيرة في الذكاء الاصطناعي الطبي تحديات نماذج اللغة الكبيرة في اتخاذ القرارات الطبية: معالجة الأوهام عبر استرجاع المعرفة تعد نماذج اللغة الكبيرة (LLMs) من التقنيات الواعدة التي يمكن أن تحدث ثورة في مجال الرعاية الصحية من خلال توفير دعم قراري ذكي ومدرجين محادثيين قادرين على التكيف. ومع ذلك، فإن أحد التحديات الرئيسية لهذه النماذج هو ميلها إلى إنتاج معلومات طبية غير دقيقة. لمعالجة هذا التحدي، يتم اللجوء غالبًا إلى تقنية استرجاع واستخدام المعلومات الخارجية (RAG)، حيث يتم تقسيم المعرفة الطبية إلى مقتطفات نصية صغيرة يمكن للنماذج استرجاعها واستخدامها أثناء التوليد. رغم أن هذه الطريقة واعدة، فإن معظم النظم الحالية تعتمد على محتوى طبي غير منظم، وهو ما يجعله صاخبًا وغير مفلتر وصعب الفهم بالنسبة للنماذج. حدود النهج الحالي لـ RAG في الذكاء الاصطناعي الطبي رغم أداء النماذج اللغوية الكبيرة بشكل مبهر في المهام اللغوية العامة، فإنها غالباً ما تفشل في المجالات التي تتطلب معرفة دقيقة ومحدثة، مثل الطب. تقدم تقنية RAG بديلاً مكلفاً أقل من التحسين الدقيق الباهظ الثمن من خلال ربط النماذج بالأدبيات الخارجية. ومع ذلك، تعتمد العديد من النظم الحالية لـ RAG على متجهات نصية عامة ومكتبات متجهات قياسية، والتي ليست محسنة للأدبيات الطبية. كما يفتقر المجال الطبي إلى مجموعات بيانات كبيرة وعالية الجودة تربط الأسئلة الطبية بال réponses ذات صلة. المجموعات الحالية، مثلPubMedQA أو MedQA، إما أنها صغيرة جدًا أو مهيكلة بشكل مفرط (مثل الاختيارات متعددة) أو تفتقر إلى الإجابات المفتوحة والمتنوعة المطلوبة لبناء أنظمة استرجاع طبية قوية. MIRIAD: هيكلة أسئلة وجواب الطب عبر الأدبيات المراجعة بالزملاء قام باحثون من ETH Zurich، Stanford، Mayo Clinic، وغيرها من المؤسسات بتطوير MIRIAD، وهي مجموعة بيانات كبيرة تضم أكثر من 5.8 مليون زوج من التعليمات والاستجابات الطبية عالية الجودة. تم إعادة صياغة كل زوج بعناية وربطه بالأدبيات المراجعة بالزملاء من خلال عملية شبه آلية تشمل نماذج اللغة الكبيرة، فلاتر، ومراجعات خبراء. تتميز MIRIAD ببنية مهيكلة وقابلة للاسترجاع، مما يعزز دقة نماذج اللغة الكبيرة في المهام السؤال والإجابة الطبية المعقدة بنسبة تصل إلى 6.7% ويحسن قدرتها على اكتشاف الأوهام بنسبة تتراوح بين 22.5% إلى 37%. خط الأنابيب للبيانات: تصفية وتبويب الأدبيات الطبية باستخدام نماذج اللغة الكبيرة وال تصنيفات لإنشاء MIRIAD، قام الباحثون بتصفية 894,000 مقالة طبية من مجموعة البيانات S2ORC وتقسيمها إلى مقاطع نصية نظيفة بناءً على الجمل، مع استبعاد المحتوى الطويل أو الصاخب. استخدموا نماذج اللغة الكبيرة مع نماذج مهيكلة لتوليد أكثر من 10 مليون زوج من الأسئلة والإجابات، ثم قاموا بتقليصها إلى 5.8 مليون زوج من خلال الفلاتر القائمة على القواعد. ساعد تصنيف مخصص، يعتمد على تقييمات GPT-4، في تضييق نطاقها إلى 4.4 مليون زوج عالية الجودة. كما قام خبراء طبيون بتحقق عينة منها للتأكد من دقتها وملائمتها و grundung. في النهاية، أنشأوا MIRIAD-Atlas، وهو خريطة تفاعلية ثنائية الأبعاد للمجموعة، باستخدام تضمين والتخفيض البعدي لتجميع المحتوى المرتبط حسب الموضوع والمجال. المكاسب في الأداء: تحسين دقة السؤال والإجابة وكشف الأوهام باستخدام MIRIAD ساهمت مجموعة البيانات MIRIAD في تحسين أداء نماذج اللغة الكبيرة في المهام الطبية بشكل كبير. عند استخدامها في RAG، حققت النماذج دقة أعلى بنسبة تصل إلى 6.7% مقارنة باستخدام البيانات غير المنظمة، حتى مع استرجاع نفس كمية المحتوى. كما عززت MIRIAD قدرة النماذج على كشف الأوهام الطبية، بمعدل تحسن في مؤشر F1 يتراوح بين 22.5% إلى 37%. بالإضافة إلى ذلك، أدى التدريب على MIRIAD إلى تحسين جودة الاسترجاع. تمكن هيكل المجموعة، الذي يعتمد على أدبيات موثقة، من الوصول إلى المعلومات بدقة وأمان أكبر، مما يدعم مجموعة واسعة من التطبيقات الطبية اللاحقة. استكشاف MIRIAD-Atlas في 56 مجالًا طبيًا بشكل عام، تعد MIRIAD مجموعة بيانات كبيرة ومهيكلة تضم 5.8 مليون زوج من الأسئلة والإجابات الطبية، مبنية على أدبيات مراجعة بالزملاء، و designed لدعم مجموعة متنوعة من تطبيقات الذكاء الاصطناعي الطبية. تتضمن MIRIAD-Atlas أداة بصرية تفاعلية تسهل استكشاف وتفاعل المستخدمين مع هذه الموارد الغنية، مما يعزز الثقة في الذكاء الاصطناعي في مجال الرعاية الصحية. رغم أنها لم تصبح شاملة بعد، فإن MIRIAD تضع أساسًا قويًا للمجموعات المستقبلية. يمكن أن تؤدي التحسينات المستمرة إلى زيادة الدقة وتحسين التفاعل مع المستخدمين والتكامل الأفضل مع الأدوات السريرية وأنظمة الذكاء الاصطناعي الطبية. تقييم الحدث من قبل المختصين يؤكد الخبراء في مجال الذكاء الاصطناعي الطبي أن MIRIAD تمثل خطوة هامة نحو تحسين دقة النماذج اللغوية الكبيرة في المجال الطبي. يعتقدون أن الهيكلة الدقيقة والمراجعة من قبل الزملاء التي تميز MIRIAD ستقلل من خطر إنتاج معلومات خاطئة، مما يزيد من الثقة في استخدام هذه التقنيات في بيئات الرعاية الصحية الحساسة. تعتبر MIRIAD أيضًا أداة قيمة لتدريب وتحسين نماذج الاسترجاع الطبية، مما يفتح الباب أمام تطبيقات أكثر تعقيدًا ودقة في المستقبل. نبذة تعريفية عن الشركة والمؤسسات المشاركة تعتبر ETH Zurich جامعة بحثية رائدة في سويسرا، تشتهر بأبحاثها في مجال العلوم والتكنولوجيا. فيما يتعلق بـ Stanford University، فهي من أبرز المؤسسات الأكاديمية في الولايات المتحدة، وتتميز ببرامجها المتقدمة في الذكاء الاصطناعي والطب. أما Mayo Clinic، فهي مركز طبي عالمي يُعتبر من أفضل المؤسسات الطبية في العالم، وتشارك بشكل كبير في البحث الطبي والرعاية الصحية. هذه的合作不仅体现了学术界和医疗领域的高度协作,也为未来医疗AI的发展奠定了坚实的基础。请注意,最后一句包含中文内容,这可能是编辑过程中的错误,正确翻译应为:“这种合作不仅体现了学术界和医疗领域的高度协作,也为未来医疗AI的发展奠定了坚实的基础。” 正确版本: 这种合作不仅体现了学术界和医疗领域的高度协作,也为未来医疗AI的发展奠定了坚实的基础。 翻译后的正确版本(阿拉伯语): يعد هذا التعاون بمثابة تجسيد للتعاون بين الأوساط الأكاديمية والطبية، ويضع أساسًا قويًا لمستقبل الذكاء الاصطناعي الطبي.

Related Links