التعاون المتعدد الوكالات الموجه بواسطة المُعَدِّل بين النماذج مفتوحة المصدر لاتخاذ القرارات الطبية

تتطلب اتخاذ القرارات الطبية المعقدة سيرًا تعاونيًا لعملية اتخاذ القرار يتم إدارتها من قبل متخصصين طبيين مختلفين. ويمكن لتصميم أنظمة الذكاء الاصطناعي متعددة الوكلاء تسريع عملية اتخاذ القرار السريري وتعزيزها على مستوى الإنسان. وتركز الأبحاث الحالية حول الوكلاء المتعددين بشكل رئيسي على المهام القائمة على اللغة فقط، بينما لا تزال التوسعات نحو السيناريوهات متعددة الوسائط تحديًا كبيرًا. فدمج عشوائي للعديد من نماذج الرؤية واللغة (VLMs) قد يؤدي إلى تضخيم تفسيرات النتائج الخاطئة. وبشكل عام، تكون نماذج الرؤية واللغة أقل قدرة في اتباع التعليمات، وأهم ما يميزها هو ضعف قدرتها على التفكير الذاتي مقارنة بنماذج النص الكبير (LLMs) ذات الحجم المماثل. ويؤدي هذا التفاوت إلى تقييد كبير لقدرات نماذج الرؤية واللغة في سياقات العمل التعاوني. في هذه الدراسة، نقترح إطارًا جديدًا يُسمى MedOrch، وهو إطار تعاوني متعدد الوكلاء موجه بالوسيط لاتخاذ القرار الطبي متعدد الوسائط. ويستخدم MedOrch وكيلًا وسيطًا مبنيًا على نموذج لغة كبير (LLM)، يُمكّن عدة وكلاء خبراء مبنية على نماذج الرؤية واللغة (VLMs) من تبادل مخرجاتها والتأمل فيها من أجل التوصل إلى تعاون فعّال. ونستخدم في هذا الإطار عدة نماذج مفتوحة المصدر، سواء كانت عامة أو مخصصة لمجالات طبية معينة، بدلًا من النماذج المكلفة من سلسلة GPT، مما يُبرز قوة النماذج المتنوعة (الغير متجانسة). ونُظهر أن التفاعل التعاوني بين الوكلاء المبنية على نماذج VLM المختلفة يمكن أن يتفوق على قدرات أي وكيل فردي. وقد تم التحقق من أداء النهج المقترح على خمسة معايير لاختبار فهم الصور الطبية، حيث أظهرت النتائج أداءً تعاونيًا متفوقًا دون الحاجة إلى تدريب النماذج. وتُبرز نتائجنا القيمة التي يُحققها النهج التعاوني الموجه بالوسيط في تطوير الذكاء متعدد الوسائط في المجال الطبي. وسوف نُفعّل إتاحة الشفرة المصدرية للدراسة للجمهور بشكل عام.