HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

ELV-Halluc: تقييم التحريفات التجميعية الدلالية في فهم الفيديو الطويل

Hao Lu Jiahao Wang Yaolun Zhang Ruohui Wang Xuanyu Zheng Yepeng Tang Dahua Lin Lewei Lu

ELV-Halluc: تقييم التحريفات التجميعية الدلالية في فهم الفيديو الطويل

الملخص

لقد حققت نماذج اللغة الكبيرة متعددة الوسائط في الفيديو (Video-MLLMs) تقدماً ملحوظاً في فهم الفيديو. ومع ذلك، تظل عرضة للمحتوى المُوهم الذي لا يتماشى أو لا يتصل بدلالة الفيديو المُدخل. وتركز المعايير السابقة لاختبار التلاعب بالفيديوهات بشكل رئيسي على مقاطع الفيديو القصيرة، وتُرجع ظهور التلاعب إلى عوامل مثل التحيزات اللغوية القوية، أو فقدان الإطارات، أو التحيزات البصرية-اللغوية الناتجة عن المشغل البصري. وعلى الرغم من أن هذه الأسباب تُفسر بالفعل معظم حالات التلاعب في مقاطع الفيديو القصيرة، إلا أنها تبسيط مفرط لطبيعة أسباب التلاعب. ففي بعض الأحيان، تُنتج النماذج إجابات خاطئة لكنها تحمل دلالات صحيحة على مستوى الإطار (frame-level). نُطلق على هذا النوع من التلاعب ما يُعرف بـ"الوهم الناتج عن التجميع الدلالي" (Semantic Aggregation Hallucination - SAH)، والذي ينشأ أثناء عملية تجميع الدلالات على مستوى الإطارات إلى مجموعات دلالية على مستوى الحدث (event-level). وبما أن SAH يصبح بالغ الأهمية في مقاطع الفيديو الطويلة بسبب التعقيد الدلالي المتزايد عبر عدة أحداث متتالية، فإن من الضروري فصل هذه الظاهرة ودراسة أسبابها بشكل شامل.ولمعالجة هذه التحديات، نقدّم ELV-Halluc، وهي أول معيار مخصص لاختبار التلاعب في مقاطع الفيديو الطويلة، مما يمكّن من دراسة منهجية لظاهرة SAH. وقد أكدت تجاربنا وجود SAH، وبيّنت أن معدل حدوثها يزداد مع تعقيد الدلالة. كما لاحظنا أن النماذج أكثر عرضة لـ SAH عند التعامل مع دلالات تتغير بسرعة. علاوة على ذلك، نناقش استراتيجيات محتملة للتقليل من حدوث SAH، ونُظهر أن استخدام استراتيجية الترميز المكاني (positional encoding) يسهم في تخفيف هذا النوع من التلاعب، كما نُطبّق استراتيجية DPO لتعزيز قدرة النموذج على التمييز بين الدلالات داخل الحدث وعبر الأحداث المختلفة.ولدعم هذه المبادرات، قمنا بجمع مجموعة بيانات مكوّنة من 8000 زوج من البيانات المُضادة (adversarial data pairs)، وحققنا تحسينات ملحوظة على كلا المعيارين ELV-Halluc وVideo-MME، بما في ذلك خفض بنسبة 27.7% في نسبة حدوث SAH.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ELV-Halluc: تقييم التحريفات التجميعية الدلالية في فهم الفيديو الطويل | الأوراق البحثية | HyperAI