HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 7 أيام

VLM-SlideEval: تقييم نماذج التعلم المتعدد الوسائط على الفهم الهيكلي وحساسية الاضطراب في العروض التقديمية

Hyeonsu Kang Emily Bao Anjan Goswami

VLM-SlideEval: تقييم نماذج التعلم المتعدد الوسائط على الفهم الهيكلي وحساسية الاضطراب في العروض التقديمية

الملخص

تُستخدم نماذج الرؤية واللغة (VLMs) بشكل متزايد لتقييم المحتوى متعدد الوسائط، بما في ذلك الشرائح العرضية، إلا أن فهمها الخاص بالشرائح لا يزال غير مُستكشف بشكل كافٍ {رغم الدور المتزايد الذي تؤديه كمُقيّمين في أنظمة نمذجة تفاعلية قائمة على النماذج}. نقدّم إطار تقييم يُسمى VLM-SlideEval، يُجري اختبارات على نماذج الرؤية واللغة من خلال ثلاث محاور رئيسية: (1) استخلاص العناصر على مستوى الفئة من صور الشرائح، مع مقارنتها بالبيانات الحقيقية (ground truth)؛ (2) المقاومة للتشويشات المُحكَمة في الهيكل الهندسي، والنمط البصري، والنص؛ و(3) الفهم على المستوى الأعلى، مثل استعادة التسلسل السردي للعرض من شرائح تم خلطها عشوائيًا. باستخدام مجموعات شرائح متاحة للجمهور من منصة زينودو (هذا الرابط https URL)، نُوحّد بيانات العناصر الحقيقية المستمدة من ملفات PowerPoint بتنسيق XML والنسخ الحية المُرسَلة إلى هيكل موحد يمكن التحقق منه. من خلال الدراسة التجريبية، نلاحظ أن نماذج الرؤية واللغة تؤدي أداءً أقل من المتوقع في استخلاص البيانات بدقة بكسلية، كما تُظهر اتفاقًا غير ضئيل، ودقة، واتساقًا معقولين عند التعرض للتشويشات المُحكَمة، كما تؤدي بشكل أفضل في فهم المحتوى الخاص بشريحة واحدة؛ ومع ذلك، فإنها لا تُسجِّل نجاحًا موثوقًا في استيعاب البنية السردية عبر الشرائح المختلفة. تُبرز هذه النتائج الحدود الحالية لنموذج الرؤية واللغة في تقييم الشرائح، وتدفع نحو تطوير أنظمة تقييم مُحكَمة، تُدمج مُقيّمين داخل الدورة (critic-in-the-loop)، لتعزيز عملية التحسين التكراري واختيار المخرجات في الأنظمة التفاعلية القائمة على النماذج.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VLM-SlideEval: تقييم نماذج التعلم المتعدد الوسائط على الفهم الهيكلي وحساسية الاضطراب في العروض التقديمية | الأوراق البحثية | HyperAI