هل يمكن لنموذج الأساس متعدد الوسائط فهم الرسومات التخطيطية؟ دراسة تجريبية حول الأسئلة والإجابات الباحثة عن المعلومات في الأوراق العلمية

يقدم هذا البحث معيار MISS-QA، وهو أول معيار مصمم خصيصًا لتقييم قدرة النماذج على تفسير الرسوم التخطيطية داخل الأدبيات العلمية. يتكون معيار MISS-QA من 1,500 مثال تم توثيقها من قبل الخبراء على مدى 465 ورقة علمية. في هذا المعيار، يتم تكليف النماذج بتفسير الرسوم التخطيطية التي توضح لمحة عامة عن البحوث وتقديم إجابات على الأسئلة الباحثة عن المعلومات بناءً على السياق الأوسع للورقة العلمية. نقيم أداء 18 نموذجًا متعدد الوسائط رائدًا، بما في ذلك o4-mini، Gemini-2.5-Flash، و Qwen2.5-VL. نكشف عن فجوة أداء كبيرة بين هذه النماذج والخبراء البشريين في معيار MISS-QA. يسلط تحليلنا لأداء النماذج على الأسئلة غير القابلة للإجابة وتحليلنا التفصيلي للأخطاء الضوء بشكل أكبر على نقاط القوة والضعف للنماذج الحالية، مما يقدم رؤى أساسية لتحسين فهم النماذج للأدبيات العلمية المتعددة الوسائط.