HyperAIHyperAI
منذ 17 أيام

فيديوإكسوم: تلخيص بصري ونصي متعدد الوسائط للفيديوهات

Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, Jiebo Luo
فيديوإكسوم: تلخيص بصري ونصي متعدد الوسائط للفيديوهات
الملخص

تهدف ملخصات الفيديو إلى استخلاص المعلومات الأكثر أهمية من فيديو مصدر لتقديم مقطع مختصر أو سرد نصي. في الماضي، تم اقتراح أساليب مختلفة حسب ما إذا كان الإخراج مقطع فيديو أو نصًا، مما أدى إلى تجاهل العلاقة بين المهمتين الشاكلتين المترابطتين، وهما ملخصات الفيديو وملخصات النص. نقترح مهمة جديدة تجمع بين ملخصات الفيديو والنص. الهدف هو إنتاج مقطع فيديو مختصر مع الملخص النصي المقابل من فيديو طويل، ويُشار إلى هذين المخرجين معًا باسم "ملخص متعدد الوسائط". يجب أن يكون المقطع المختصر والنص الناتج متناسقين من حيث المعنى. ولتحقيق ذلك، نقوم أولاً ببناء مجموعة بيانات كبيرة مُعلّمة يدويًا تُسمى VideoXum (حيث يشير X إلى وسائط مختلفة). وتُعدّ هذه المجموعة مُعاد ترميزها بناءً على مجموعة بيانات ActivityNet. وبعد استبعاد الفيديوهات التي لا تلبي متطلبات الطول، تبقى 14,001 فيديو طويلًا في مجموعتنا الجديدة. ويحتوي كل فيديو في المجموعة المُعاد ترميزها على ملخصات فيديو مُعلّمة يدويًا والملخصات النصية المقابلة لها. ثم نصمم نموذجًا جديدًا من نوع النموذج المتكامل من البداية إلى النهاية يُسمى VTSUM-BILP لمعالجة التحديات المرتبطة بالمهام المقترحة. علاوةً على ذلك، نقترح مقياسًا جديدًا يُسمى VT-CLIPScore لمساعدة تقييم الاتساق المعنوي للملخصات المتعددة الوسائط. وتحقيقًا لنتائج واعدة في هذه المهمة الجديدة، يُثبت النموذج المقترح معيارًا مرجعيًا للبحث المستقبلي.