HyperAI

GMAI-MMBench هو معيار تقييم متعدد الوسائط مصمم لتعزيز تطوير الذكاء الاصطناعي الطبي العام. تم إطلاقه بشكل مشترك في عام 2024 من قبل تسع مؤسسات بما في ذلك مختبر الذكاء الاصطناعي في شنغهاي، وجامعة واشنطن، وجامعة موناش، وجامعة شرق الصين العادية، وجامعة كامبريدج، وجامعة شنغهاي جياو تونغ، والجامعة الصينية في هونج كونج (شنتشن)، ومعهد شنتشن للبيانات الضخمة، ومعهد شنتشن للتكنولوجيا المتقدمة، والأكاديمية الصينية للعلوم.GMAI-MMBench: معيار تقييم شامل متعدد الوسائط للذكاء الاصطناعي الطبي العاميُساعد هذا المعيار الباحثين والمطورين على اكتساب رؤى معمقة حول تأثيرات تطبيقات نماذج الرؤية واللغة الكبيرة (LVLMs) في المجال الطبي، وتحديد أوجه القصور التقنية من خلال توفير تقييمات شاملة ومفصلة. يغطي هذا المعيار مجموعة واسعة من مجموعات البيانات، بما في ذلك 284 مجموعة بيانات من مصادر مختلفة، تتضمن 38 نموذجًا للصور الطبية و18 مهمة سريرية ذات صلة، وتغطي 18 قسمًا طبيًا مختلفًا، ويتم تقييمها بأربعة مستويات إدراكية مختلفة، مما يُراعي أداء نماذج الرؤية واللغة الكبيرة من أبعاد متعددة.

من السمات البارزة لـ GMAI-MMBench هو تقييمه للحبيبات متعددة الإدراكات، والذي لا يركز فقط على التقييم على المستوى العام للصورة، بل يتعمق أيضًا في المستوى الإقليمي، مما يوفر منظور تقييم أكثر تفصيلاً وشاملاً. بالإضافة إلى ذلك، نظرًا لأن مجموعة البيانات تأتي بشكل أساسي من المستشفيات ويتم شرحها بواسطة أطباء محترفين، فإن مهام التقييم الخاصة بـ GMAI-MMBench أقرب إلى السيناريوهات السريرية الحقيقية ولديها درجة عالية من الأهمية السريرية. ويجعل هذا الارتباط نتائج المعايير المرجعية مفيدة للتطبيقات الطبية في العالم الحقيقي.

يتيح GMAI-MMBench أيضًا للمستخدمين تخصيص مهام التقييم. من خلال تنفيذ بنية شجرة المفردات، يمكن للمستخدمين تحديد مهام التقييم وفقًا لاحتياجاتهم الخاصة، مما يوفر المرونة لأبحاث وتطبيقات الذكاء الاصطناعي الطبية. من خلال تقييم 50 LVLMs، بما في ذلك بعض نماذج GPT-4o المتقدمة، وجد فريق البحث أن حتى النماذج الأكثر تقدمًا حققت دقة 52% فقط في التعامل مع المشاكل المهنية الطبية، مما يدل على أنه لا يزال هناك مجال كبير للتحسين في تطبيق LVLMs الحالية في المجال الطبي. يوفر تطوير GMAI-MMBench موردًا قيمًا لتقييم وتحسين تطبيق LVLMs في المجال الطبي، بينما يكشف أيضًا عن التحديات التي تواجه التقنيات الحالية ويشير إلى اتجاهات الأبحاث المستقبلية.

مجموعة بيانات معيارية لتقييم متعدد الوسائط الطبي GMAI-MMBench