HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 19 أيام

سلسلة الإطارات: تطوير فهم الفيديو في النماذج اللغوية متعددة الوسائط من خلال التفكير المُراعي للإطارات

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

سلسلة الإطارات: تطوير فهم الفيديو في النماذج اللغوية متعددة الوسائط من خلال التفكير المُراعي للإطارات

الملخص

أظهرت الدراسات الحديثة أن إجبار نماذج اللغة الكبيرة (LLMs) على إنتاج سلسلة من التفكير باللغة الطبيعية قبل الإجابة على طلب المستخدم يمكن أن يُحسّن بشكل كبير أداؤها عبر مختلف المهام. وقد تم توسيع هذا النهج ليشمل النماذج متعددة الوسائط، حيث تُنتج النماذج سلسلة من التفكير (CoT) حول محتوى الصور والفيديوهات المدخلة. في هذا العمل، نقترح الحصول على نماذج لغة فيديو (Video LLMs) تكون خطوات تفكيرها مبنية على الإطارات المرئية ذات الصلة، وتشير صراحةً إلى هذه الإطارات. ولتحقيق ذلك، نقوم أولاً بإنشاء مجموعة بيانات تُسمى CoF-Data، وهي مجموعة بيانات كبيرة ومتنوعة تتضمن أسئلة وأجوبة وسلسلة تفكير مبنية على الإطارات المرئية، تتعلق بكل من الفيديوهات الطبيعية والصناعية، وتغطي مواضيع ومهام متنوعة. ثم نُعدّل النماذج الحالية للفيديو LLMs باستخدام هذه البيانات المبنية على سلسلة الإطارات (CoF). ويتميز نهجنا بالبساطة والانفصال الذاتي، ولا يتطلب، على عكس النماذج الحالية لسلسلة التفكير في الفيديو، استخدام شبكات مساعدة لاختيار أو وصف الإطارات ذات الصلة. ونُظهر أن نماذجنا القائمة على CoF قادرة على إنتاج سلسلة تفكير دقيقة تشير إلى الإطارات الأساسية الضرورية للإجابة على السؤال المطروح. ونتيجة لذلك، تُحسّن الأداء بشكل ملحوظ في العديد من معايير فهم الفيديو، حيث تتفوّق على النماذج الرائدة في مجال لغة الفيديو على معايير مثل Video-MME وMVBench وVSI-Bench، وتقلل بشكل ملحوظ من معدل التصوّر الخاطئ (hallucination). الكود متاح عبر الرابط التالي: [هذا الرابط] (this http URL).

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
سلسلة الإطارات: تطوير فهم الفيديو في النماذج اللغوية متعددة الوسائط من خلال التفكير المُراعي للإطارات | الأوراق البحثية | HyperAI