HyperAIHyperAI

Command Palette

Search for a command to run...

بفضل الاستفادة من القدرات السياقية الطويلة لـ Gemini 1.5، حقق نظام الرعاية الصحية التفاعلي AMIE من جوجل مستوى التفكير الذي يتمتع به الطبيب العام في 100 سيناريو تتضمن زيارات متعددة للمرضى.

Featured Image

تتوسع نماذج اللغة الكبيرة بسرعة في مجال الرعاية الصحية، حيث تمتد تطبيقاتها من استرجاع المعلومات الطبية وإنشاء السجلات الطبية إلى دعم اتخاذ القرارات السريرية. ومن بين هذه التطبيقات، يُعد التشخيص المدعوم أحد أكثر المجالات نضجًا: إذ يمكن للنماذج المُحسّنة طبيًا أن توفر تشخيصات تفريقية عالية الجودة بناءً على التاريخ الطبي والعلامات السريرية ونتائج الفحوصات؛ كما يمكن للأنظمة ذات إمكانيات الحوار متعدد المراحل أن تُكمّل معلومات التاريخ الطبي من خلال تفاعل شبيه بالاستشارة.

مع ذلك، يُعد التشخيص مجرد نقطة انطلاق لاتخاذ القرارات السريرية. فما يؤثر فعلياً على جودة العلاج غالباً ما يكون القرارات الإدارية المتخذة بعد التشخيص، كإجراء المزيد من الفحوصات، واختيار خطة العلاج، وتحديد وقت تعديل الأدوية، وجدولة مواعيد المتابعة، ومراجعة الخطة باستمرار بناءً على تغيرات حالة المريض. هذا النوع من "التفكير الإداري" أقرب إلى جوهر العمل السريري الحقيقي.كما أنه يركز بشكل أكبر على الفهم الشامل للنموذج للمبادئ التوجيهية القائمة على الأدلة، والمسارات السريرية، ومعرفة الأدوية، والاختلافات الفردية بين المرضى.

بالمقارنة مع التفكير التشخيصي، يُعدّ التفكير الإداري أكثر صعوبة في التقييم. فالمشاكل التشخيصية عادةً ما يكون لها إجابات معيارية واضحة نسبيًا، بينما تفتقر القرارات الإدارية غالبًا إلى حل واحد، وتخضع لقيود الموارد الطبية، والإرشادات، وتوفر الأدوية، وخبرة الأطباء. حاليًا، تُعدّ طريقة الفحص السريري الموضوعي المنظم (OSCE) هي الطريقة الرئيسية لتقييم هذا النوع من القدرات الشاملة في التعليم الطبي، إلا أنها تعتمد على التفاعل المباشر مع المرضى وتقييم الخبراء، مما يجعل تطبيقها المباشر على التقييم الآلي لنماذج اللغة الكبيرة أمرًا صعبًا.

لسدّ هذه الفجوة، طوّرت دراسة حديثة أجرتها جوجل ديب مايند وجوجل ريسيرش نظامًا جديدًا للوكلاء الأذكياء قائمًا على نموذج اللغة الممتد (LLM)، مستندًا إلى نظام الرعاية الصحية التفاعلي AMIE. يُمكّن هذا النظام من إدارة الحالات السريرية وتحسين الحوار بين الطبيب والمريض في سيناريوهات متابعة متعددة. يستفيد AMIE من قدرات نموذج جيميني في استيعاب السياقات الطويلة، جامعًا بين استرجاع المعلومات ضمن السياق والاستدلال المنظم لضمان توافق مخرجاته مع أحدث إرشادات الممارسة السريرية وقوائم الأدوية الموصوفة.

في دراسة عشوائية مزدوجة التعمية للفحص السريري الموضوعي المنظم الافتراضي (OSCE)، قارن الباحثون أداء AMIE مع 21 طبيب رعاية أولية. شمل الاختبار 100 سيناريو متعدد الزيارات، مع تصميم الحالات وفقًا لإرشادات المعهد الوطني للتميز في الرعاية الصحية (NICE) في المملكة المتحدة وإرشادات أفضل الممارسات السريرية الصادرة عن المجلة الطبية البريطانية (BMJ). أظهرت النتائج أن...فيما يتعلق بقدرة التفكير في إدارة الأمراض التي تم تقييمها من قبل المتخصصين، لم يكن أداء AMIE أسوأ من أداء الأطباء البشريين (غير الأدنى)؛في الوقت نفسه، سجلت AMIE درجات أعلى من مجموعة الأطباء من حيث دقة خطط العلاج وتوصيات الفحص، فضلاً عن درجة الالتزام بالإرشادات السريرية وموثوقية قاعدة المعرفة.

تم نشر نتائج البحث ذات الصلة، بعنوان "نحو الذكاء الاصطناعي التفاعلي لإدارة الأمراض"، في مجلة Nature.

أبرز الأبحاث:

* يعمل هذا البحث على تطوير قدرات نظام الرعاية الصحية التفاعلي AMIE من التشخيص في جولة واحدة إلى عملية كاملة من التفكير في الإدارة السريرية التي تغطي تطور المرض، وقرارات الزيارات المتعددة، وردود الفعل على الاستجابة للعلاج، ووصف الأدوية.

* يستفيد النظام من قدرات السياق الطويل لـ Gemini، حيث يجمع بين الاسترجاع السياقي والاستدلال المنظم لضمان أن تكون بروتوكولات الإدارة متسقة للغاية مع المعرفة السريرية الموثوقة مثل إرشادات NICE وأفضل ممارسات BMJ.

* أدى النظام أداءً على مستوى الطبيب العام أو أعلى منه في مؤشرات متعددة، بما في ذلك مدى ملاءمة البروتوكول بشكل عام، وجودة توصيات العلاج، ودقة توصيات الفحص.


عرض الورقة:
https://www.nature.com/articles/s41586-026-10764-5

مجموعات البيانات: من أسئلة وأجوبة فردية إلى سيناريوهات سريرية رأسية

لتقييم القدرات الواقعية للذكاء الاصطناعي التفاعلي في مجال الرعاية الصحية في التفكير الإداري طويل الأجل، قام فريق البحث ببناء نظام بيانات متعدد المستويات.يغطي هذا الكتاب سيناريوهات سريرية تتضمن زيارات طبية متعددة، كما يتضمن إرشادات قائمة على الأدلة ومعرفة بالأدوية.تُستخدم لتدريب النماذج، وتوليد المخططات، والتقييم المعياري.

أداة التقييم الأساسية هي مجموعة من "مجموعة بيانات سيناريوهات الفحص السريري الموضوعي المنظم الافتراضي متعددة الزيارات".جمعت الدراسة ما مجموعه 100 دراسة حالة مستقلة.تتوزع الحالات بالتساوي على خمسة تخصصات: أمراض القلب، وأمراض الرئة، وأمراض النساء والتوليد/المسالك البولية، وأمراض الجهاز الهضمي، وأمراض الأعصاب/العضلات والعظام، بواقع 20 حالة لكل تخصص. وقد صُممت جميع الحالات بشكل مشترك من قبل أطباء من كندا والهند، وتم إعدادها بالرجوع إلى مسارات العلاج في المبادئ التوجيهية السريرية للمعهد الوطني للتميز في الرعاية الصحية (NICE) والمبادئ التوجيهية لأفضل الممارسات الصادرة عن المجلة الطبية البريطانية (BMJ).

بخلاف جلسات الأسئلة والأجوبة الطبية التقليدية ذات الجولة الواحدة، صُممت هذه الحالات لتشمل ثلاث زيارات متتالية للطبيب. لا يقتصر كل سيناريو على الشكوى الأولية للمريض فحسب،كما يتضمن معلومات طولية مثل تطور الأعراض، والاستجابة للعلاج، وتقارير نتائج الفحوصات المساعدة.كان الهدف هو محاكاة عملية اتخاذ القرار في الواقع العملي لإدارة الأمراض المزمنة ومتابعة الحالات المعقدة بدقة. ولزيادة صعوبة الحالة السريرية، تضمنت بعض الحالات عناصر مثل تناقضات المعلومات والأمراض المصاحبة التي تصيب أجهزة متعددة، وذلك لاختبار قدرات النظام على إصدار الأحكام في ظل ظروف غير نمطية.بالإضافة إلى 100 حالة تقييم رسمية، قامت الدراسة أيضًا بوضع 20 سيناريو للتحقق من الصحة من أجل التجريب المسبق ومعايرة التسجيل.

يستند النهج القائم على الأدلة إلى قاعدة معرفية خاصة بالمبادئ التوجيهية السريرية.تحتوي قاعدة المعرفة هذه على 627 وثيقة، بما في ذلك 527 من إرشادات المعهد الوطني للتميز في الرعاية الصحية (NICE) و100 من وثائق أفضل الممارسات الصادرة عن المجلة الطبية البريطانية (BMJ).يبلغ الحجم الإجمالي حوالي 10.5 مليون رمز، ويشمل معايير التشخيص، ومسارات الفحص، وخطط العلاج، وإرشادات المتابعة. خلال عملية التقييم، تُتاح قاعدة المعرفة هذه لكل من نظام الذكاء الاصطناعي والأطباء العامين المشاركين لمحاكاة سيناريو مراجعة مواد الإرشادات في بيئات سريرية حقيقية، ولضمان العدالة في المقارنة بين الإنسان والآلة قدر الإمكان.

يُعد اتخاذ القرارات المتعلقة بالأدوية جزءًا لا غنى عنه من التفكير الإداري. لذلك،كما قام فريق البحث بإنشاء معيار خاص لـ RxQA.يُستخدم هذا المعيار لتقييم فهم النموذج لتعليمات الأدوية، ودواعي الاستعمال، وموانع الاستعمال، والجرعات، ومخاطر الأدوية. ويتضمن 600 سؤال اختيار من متعدد مستمدة من تعليمات الأدوية في قاعدة بيانات إدارة الغذاء والدواء الأمريكية المفتوحة (OpenFDA) والدليل الوطني للأدوية في المملكة المتحدة، مقسمة إلى فئتين: أسئلة أساسية قصيرة، وأسئلة شاملة تتناول سيناريوهات طويلة.تم إنشاء المسودة الأولية للأسئلة بواسطة نموذج Gemini وفقًا للتعليمات، ثم تمت مراجعتها وتنقيحها ووضع علامات عليها بصعوبة من قبل 8 صيادلة مرخصين من كلا البلدين.بسبب قيود الترخيص، لا يتوفر حاليًا سوى 300 سؤال من OpenFDA للنشر العام، مما يوفر مرجعًا موحدًا لمقارنة القدرات على التفكير في الأدوية.

نموذج AMIE: تمكين الأنظمة من امتلاك كل من "قدرات الحوار" و"قدرات الإدارة العميقة"

يستند هذا البحث إلى نظام الرعاية الصحية التفاعلي الذي اقترحته جوجل سابقًا، AMIE، ويتضمن تحسينات محددة لتلبية احتياجات التفكير الإداري. يستخدم النظام الجديد بنية تعاونية ثنائية الوكلاء، مستوحاة من "نظرية العمليتين" في العلوم المعرفية.يتولى أحد الموظفين مسؤولية الحوار السريع والمستمر بين الطبيب والمريض، بينما يتولى موظف آخر مسؤولية التفكير الإداري الأبطأ ولكنه الأكثر عمقاً.يستخدم النموذج الأساسي بشكل موحد Gemini 1.5 Flash لتحقيق التوازن بين سرعة الاستجابة في الوقت الحقيقي وقدرات الاستدلال في السياق الطويل.

خاصة،يتكون النظام من وكيل حوار ووكيل استدلال إدارة Mx.يُشبه وكيل الحوار "النظام 1": فهو مسؤول عن التواصل الفوري مع المرضى، والاستفسار عن تاريخهم الطبي، وشرح خطط العلاج، ومتابعة حالة المريض أثناء الحوار. أما وكيل Mx، فيُشبه "النظام 2": فهو مسؤول بشكل أساسي عن إنشاء خطط إدارة منظمة وقابلة للتتبع، استنادًا إلى معلومات كاملة عن المرض والإرشادات السريرية. يقوم كلا النظامين بمزامنة المعلومات من خلال وحدة حالة مشتركة، مما يسمح لوكيل الحوار بالوصول إلى نتائج استدلال Mx في أي وقت، وبالتالي ضمان تقديم المشورة الطبية بشكل دقيق مع الحفاظ على تواصل طبيعي.

بنية نظام نموذج AMIE


وباعتباره مركزًا تفاعليًا، فقد تم تحديث وكيل الحوار في ثلاثة جوانب مقارنة بنموذج التشخيص الأصلي.أولاً،تم استبدال النموذج الأساسي بـ Gemini 1.5 Flash، الذي يتمتع بقدرات سياقية طويلة، مما يُمكّنه من التعامل مع السجلات الطبية الأطول ومعلومات الحوار متعددة الأدوار.ثانية،تضمنت بيانات التدريب العديد من الاستشارات الطبية المحاكاة لتعزيز فهم النظام لتطور المرض وإدارته على المدى الطويل.ثالث،بعد الضبط الدقيق الخاضع للإشراف، قامت الدراسة أيضاً بدمج التعلم المعزز القائم على التغذية الراجعة البشرية والذكاء الاصطناعي لتحسين جودة الحوار وأداء اتخاذ القرار.

أثناء الاستدلال في الوقت الفعلي، يتبنى وكيل الحوار عملية من ثلاث خطوات هي "التخطيط-التوليد-التحسين":أولاً، يخطط النظام للخطوات التالية للاستشارة أو الاستجابة بناءً على الحالة الراهنة، ثم يُنشئ ردوداً بلغة طبيعية للمريض، وأخيراً يُجري مراجعة ذاتية وتصحيحاً. ولدعم الإدارة المستمرة عبر زيارات المريض المختلفة، يحتفظ النظام أيضاً ببنية حالة معيارية، تشمل ملخص حالة المريض، والتشخيص التفريقي، وخطة العلاج الحالية، ومعلومات أخرى، ويُحدّثها باستمرار في الخلفية لتجنب البدء من الصفر في كل محادثة.

يُعدّ وكيل Mx الوحدة الأساسية في النظام بأكمله والمسؤولة عن الاستدلال الإداري العميق.إنها تستغل بشكل كامل إمكانيات السياق الطويل لـ Gemini 1.5 Flash، وتوظف استراتيجية "الاسترجاع التقريبي + الاستدلال السياقي الكامل".لتقليل تشتت المعلومات الناتج عن استرجاع البيانات التقليدي المجزأ، يقوم النظام أولاً بفهرسة جميع وثائق الإرشادات باستخدام نموذج تضمين Gecko 1B. ثم يُنشئ استعلامًا بلغة طبيعية بناءً على حالة المريض الحالية، ويختار ما يقارب ست وثائق كاملة ذات صلة عالية من مكتبة الإرشادات، بإجمالي حوالي 256,000 كلمة. بعد ذلك، يُدخل النظام هذه الإرشادات كاملة النص، بالإضافة إلى التاريخ الطبي الكامل للمريض، في النموذج، مما يسمح للنموذج بإجراء استدلال شامل عبر الوثائق والمراحل في استدعاء واحد.

لتحسين سهولة استخدام مخرجات النظام وقابليتها للتدقيق، يستخدم وكيل Mx قيود مخطط JSON لتوليد النتائج وإخراجها وفقًا لإطار عمل "تحليل الحالة السريرية - تحديد أهداف العلاج - صياغة خطوات العلاج والاستشهاد بمصادر الإرشادات". يجب أن يكون كل اقتراح مصحوبًا بالاستشهاد المناسب بالإرشادات. في الوقت نفسه، يقوم النظام أولًا بإنشاء أربع مسودات علاجية بشكل مستقل، ثم يدمجها ويحسنها بناءً على نص الإرشادات الأصلي لتحسين اكتمال الحل النهائي وقابليته للتكيف.

لا يقلّ شأناً عن الأطباء العامين في جميع المؤشرات الخمسة عشر.

للتحقق من قدرة النظام المطور على التفكير في الإدارة السريرية، استخدمت هذه الدراسة إطار عمل OSCE افتراضي عشوائي ومعمى، بالإضافة إلى اختبار RxQA المعياري للأدوية.تمت مقارنة نظام AMIE مع 21 طبيبًا عامًا.يدور التقييم الشامل حول ثلاثة أبعاد: الجودة الشاملة لخطة الإدارة، وجودة توصيات التحقيق، وجودة توصيات العلاج.

في التقييم السريري، يُطلب من كل من الأطباء العامين والأطباء المتخصصين في الطب الجهازي إكمال 100 مجموعة من حالات المرضى الخارجيين المتعددة. أجرى ثلاثون طبيباً متخصصاً ومرضى معياريين تقييماً سرياً من منظورين: الجودة المهنية وتجربة المريض. وهذا يعني أن المقيمين لم يكونوا على علم بما إذا كانت خطة العلاج صادرة عن نظام ذكاء اصطناعي أم عن طبيب بشري، مما قلل من تأثير التحيز الناتج عن الهوية على النتائج. واستخدم اختبار الأدوية بيئتين: بيئة مغلقة وأخرى مفتوحة، لمراقبة ما إذا كانت البيانات الخارجية ستؤثر على أداء النظام والطبيب.

وتظهر النتائج أنمن حيث الجودة الشاملة لخطة العلاج، فإن النظام ليس أسوأ من الممارسين العامين في جميع أبعاد التقييم الخمسة عشر ويظهر مزايا إحصائية في العديد من المؤشرات.على سبيل المثال، عند تقييم مدى ملاءمة خطة العلاج بشكل عام، سجل النظام 95% و96% و98% في الزيارات الثلاث على التوالي، وهو أعلى من درجات الطبيب العام التي بلغت 72% و80% و81%. أما فيما يتعلق بمعدل ملاءمة توصيات العلاج، فقد سجل النظام 87% و90% و94% على التوالي، وهو أيضاً أعلى من درجات الطبيب العام التي بلغت 66% و62% و71%.

كما يُظهر النظام ميزة ثابتة في دقة توصيات الفحص والعلاج.إن معدل دقة توصيات العلاج الخاصة بها أعلى باستمرار من 95%، بينما يتراوح معدل دقة توصيات الأطباء العامين بين 62% و 67%.فيما يتعلق بالامتثال للإرشادات، فإن قدرة النظام على التتبع أفضل بكثير من قدرة الأطباء البشريين، لأن كل توصية تتطلب توثيقًا صريحًا. تشير هذه النتيجة إلى أن آلية دمج الاستدلال السياقي المطول مع نص الإرشادات الأصلي قد تُسهم في تحسين استقرار النموذج وقابليته للتفسير في مهام الإدارة المعقدة.

جودة خطة الإدارة


في تقييم التفضيل ذي المنظورين، غطت الدراسة 10 أبعاد أساسية للتفكير الإداري، مما أسفر عن 51 مجموعة من المقارنات. وفي ما يقرب من نصف الحالات، اعتبر كل من الأخصائي والمريض أن أداءهما متقارب.في الحالات التي لوحظ فيها تفضيل واضح، كان معدل فوز النظام 47%، وهو أعلى بكثير من 7% للأطباء العامين.والجدير بالذكر أن اتجاهات التقييم للأطباء المتخصصين والمرضى متسقة تمامًا، مما يشير إلى أن مزايا النظام لا تنعكس فقط في الحكم المهني ولكن أيضًا في الأبعاد المتعلقة بتجربة المريض.

مع ازدياد عدد الزيارات، تتضح مزايا النظام في الجوانب المتعلقة بالوقت، مثل المراقبة الديناميكية، وتدفق المرضى، وعلاقات الطبيب بالمريض. ويتماشى هذا مع الهدف الأساسي للبحث: تكمن صعوبة إدارة الاستدلال لا في صحة إجابة واحدة، بل في القدرة على الربط المستمر بين التغيرات في حالة المريض، وردود الفعل على العلاج، والخطوات التالية في الخطة العلاجية.

تصور نسب التفضيل عبر 51 بُعدًا مستقلًا


فيما يتعلق بالتفكير المتعلق بالمخدرات،تُظهر معايير RxQA أن النظام يتفوق على الممارسين العامين في الأسئلة الصعبة للغاية التي يقيمها الصيادلة.في بيئة مغلقة المصادر، بلغت دقة النظام 50.61 نقطة لكل 30 ...

دقة استنتاج الأدوية في نظام RxQA

الكلمات الأخيرة

لا تكمن قيمة هذه الدراسة في إثبات قدرة النماذج الطبية واسعة النطاق على استبدال الأطباء، بل في تحويل محور التقييم من "التشخيص" إلى "الإدارة المستمرة". فمقارنةً بجلسات الأسئلة والأجوبة أحادية الجولة، يُعدّ التفكير الإداري أقرب إلى الممارسة السريرية الواقعية: إذ يحتاج الأطباء إلى تعديل أحكامهم باستمرار بناءً على تغيرات مسار المرض، وردود الفعل تجاه العلاج، والأدلة الإرشادية، والاختلافات الفردية بين المرضى. ويوفر نظام التقييم السريري الموضوعي المنظم الافتراضي متعدد الزيارات، وقاعدة المعرفة الإرشادية، والمعايير المرجعية الخاصة بكل دواء، ونظام الوكيل المزدوج، إطارًا أكثر ملاءمةً سريريًا لتقييم الذكاء الاصطناعي الطبي. ومع ذلك، لا تزال البيئة الافتراضية غير قادرة على محاكاة الفحوصات البدنية، وقيود الموارد، والتزام المرضى، وحدود المسؤولية في الرعاية الصحية الواقعية بشكل كامل.

لذلك، فإن التقييم الأكثر حكمة هو أن نموذج البيانات الضخمة الطبية يتحول من "المساعدة في التشخيص" إلى "المساعدة في الإدارة". لا تكمن قيمته على المدى القصير في استبدال الأطباء في اتخاذ القرارات النهائية، بل في أن يصبح أداة دعم القرار السريري قابلة للتتبع والتدقيق والتحديث المستمر في مجالات مثل تحليل تطور المرض، ومطابقة الإرشادات، والتحقق من الأدوية، وتخطيط المتابعة، والتواصل مع المرضى.