SMMILE: معيار محرك من الخبراء للتعلم السياقي متعدد الوسائط في المجال الطبي

رغم إمكاناته الكبيرة في مجالات مثل الطب، فإن التعلم السياقي متعدد الوسائط (ICL) لا يزال قليل الدراسة. يواجه الأطباء بشكل روتيني مهامًا متنوعة ومتخصصة تتطلب التكيف من أمثلة محدودة، مثل استخلاص الرؤى من حالات سابقة ذات صلة قليلة أو النظر في مجموعة محددة من التشخيصات المتمايزة. بينما أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تقدمًا في الإجابة على الأسئلة الطبية البصرية (VQA)، فإن قدرتها على التعلم من المهام متعددة الوسائط في السياق ما زالت غير معروفة إلى حد كبير. نقدم SMMILE، أول مقاييس خبراء للتعلم السياقي متعدد الوسائط للمهام الطبية. قام أحد عشر خبيرًا طبيًا بجمع المشكلات، كل منها يتضمن استفسارًا متعدد الوسائط وأمثلة سياقية متعددة الوسائط كعروض للمهمة. يغطي SMMILE 111 مشكلة (517 ثلاثية سؤال-صورة-إجابة) تتعلق بست تخصصات طبية و13 تقنية تصوير. كما نقدم SMMILE++، نسخة معدلة تحتوي على 1038 مشكلة مرتبطة بشكل مختلف. أظهر تقييم شامل لـ 15 نموذجًا من MLLMs أن معظم النماذج تتمتع بقدرة معتدلة إلى ضعيفة على التعلم السياقي متعدد الوسائط في المهام الطبية. في التقييمات المفتوحة، يساهم التعلم السياقي بنسبة تحسين متوسطة بلغت 8% فقط فوق الأداء بدون أمثلة على SMMILE و9.4% على SMMILE++. لاحظنا حساسية للأمثلة السياقية غير ذات الصلة: يمكن لأمثلة واحدة ضوضائية أو غير ذات صلة أن تقلل من الأداء بنسبة تصل إلى 9.5%. علاوة على ذلك، يظهر ترتيب الأمثلة تحيزًا حديثًا، أي أن وضع الأمثلة الأكثر صلة في آخر القائمة يمكن أن يؤدي إلى تحسينات كبيرة في الأداء بنسبة تصل إلى 71%. تعكس نتائجنا القيود والتحيزات الحرجة الحالية في MLLMs عند التعلم من المهام الطبية متعددة الوسائط في السياق.