NarrativeBridge: تحسين التسمية التوضيحية للفيديوهات باستخدام السرد السببي-الزمني

تُعاني المعايير والنماذج الحالية لوصف الفيديو من غياب السرد الزمني السببي، وهو تسلسل من الأحداث المرتبطة بعلاقة سبب ونتيجة، ويتطور عبر الزمن ويُحرّكها أشخاص أو كيانات. ويحد هذا النقص من قدرة النماذج على إنتاج وصفات نصية تُجسّد الديناميات الزمنية والسببية المتأصلة في محتوى الفيديو. وللتغلب على هذه الفجوة، نقترح إطارًا يُسمى NarrativeBridge، يتضمن ما يلي: (1) معيار جديد لوصف الفيديو يُسمى "السرد الزمني السببي" (CTN)، تم إنشاؤه باستخدام نموذج لغة كبير وتقنيات توجيه قليلة الأمثلة، حيث يتم ترميز العلاقات الزمنية السببية بشكل صريح في وصفات الفيديو؛ و(2) شبكة سببية (CEN) تمتلك مشغلات منفصلة لاستكشاف ديناميكيات السبب والنتيجة، مما يمكّن من تعلم فعّال وإنتاج وصفات نصية تمتلك سردًا زمنيًا سببيًا. أظهرت التجارب الواسعة أن نموذج CEN يتفوّق بشكل كبير على أحدث النماذج في التعبير عن الجوانب السببية والزمنية لمحتوى الفيديو، حيث حقق تقييمات قدرها 17.88 و17.44 في معيار CIDEr على مجموعتي بيانات MSVD-CTN وMSRVTT-CTN على التوالي. كما أظهرت التقييمات العابرة للمجموعات قدرة قوية للنموذج على التعميم. ويُظهر الإطار المقترح فهمًا عميقًا وإنتاجًا لوصف نصي دقيق ودقيق، يحمل هياكل سردية زمنية سببية معقدة موجودة في الفيديوهات، مما يعالج أحد القيود الحاسمة في مجال وصف الفيديو. لمزيد من التفاصيل حول المشروع، يُرجى زيارة: https://narrativebridge.github.io/.