HyperAIHyperAI
منذ 8 أيام

IcoCap: تحسين وصف الفيديو من خلال تجميع الصور

{Yi Yang, Xiaohan Wang, Linchao Zhu, Yuanzhi Liang}
الملخص

الوصف المرئي للفيديو (Video Captioning) يُعد مهمة أكثر تعقيدًا مقارنةً بوصف الصور (Image Captioning)، وذلك بشكل رئيسي بسبب الفروق في كثافة المحتوى. إذ يحتوي بيانات الفيديو على محتوى بصري متكرر، مما يجعل من الصعب على النماذج النصية التعميم على محتوى متنوع وتجنب التأثر بعناصر غير ذات صلة. علاوةً على ذلك، فإن المحتوى الزائد في الفيديو لا يتم تقطيعه بشكل فعّال بما يتناسب مع الدلالة البصرية الصحيحة في العينات المُرجعية (ground truth)، ما يزيد من صعوبة مهمة وصف الفيديو. تتركز الأبحاث الحالية في مجال وصف الفيديو بشكل رئيسي على تصميم نماذج النصوص، مع إهمال التأثير الناتج عن كثافة المحتوى على أداء هذه النماذج. مع الأخذ في الاعتبار الفروق بين الفيديو والصورة، توجد خطوة أخرى لتحسين وصف الفيديو من خلال الاستفادة من عينات صور موجزة وسهلة التعلم لتوسيع تنوع عينات الفيديو. يُجبر هذا التعديل على كثافة المحتوى النموذج النصي على تعلم المفاهيم البصرية المعقدة بشكل أكثر فعالية، مع التغلب على التكرار والغموض. في هذه الورقة، نقترح منهجية جديدة تُسمى "التعلم المركب بالصور للوصف المرئي للفيديو" (Image-Compounded learning for video Captioners، اختصارًا IcoCap) لتمكين تعلم أعمق للدلالات البصرية المعقدة في الفيديو. يتكوّن IcoCap من مكوّنين رئيسيين: استراتيجية توليف الصور والفيديو (Image-Video Compounding Strategy، اختصارًا ICS)، ووصف مرئي-دلالي موجه (Visual-Semantic Guided Captioning، اختصارًا VGC). تُدمج استراتيجية ICS مفاهيم بصرية بسيطة من الصور إلى مفاهيم الفيديو، مما يُعدّد المحتوى البصري للفيديو ويُشجّع الشبكة العصبية على التعميم على عينات أكثر تنوعًا. علاوةً على ذلك، عند التعلّم باستخدام عينات مُدمجة بمحتوى صور، يُجبر النموذج النصي على استخلاص الإشارات القيّمة في الفيديو بشكل أفضل، في ظل وجود دلالات صورية بسيطة، ما يساعده على التركيز على المعلومات ذات الصلة والتصفية من المحتوى غير الضروري. ثم، يوجّه VGC الشبكة العصبية لتعلم عناوين النصوص المُرجعية بشكل مرن بناءً على العينات المُدمجة، مما يُسهم في تقليل الفجوة بين العينات المُرجعية والدلالات الغامضة في عينات الفيديو. أظهرت النتائج التجريبية فعالية IcoCap في تحسين تعلّم نماذج وصف الفيديو. عند تطبيقه على مجموعات البيانات الشهيرة MSVD وMSR-VTT وVATEX، حقق الأداء مُنافسًا أو متفوقًا على الطرق الرائدة حاليًا، ما يُبرز قدرته على التعامل مع بيانات فيديو غنية بالتكرار والغموض.