HyperAIHyperAI

Command Palette

Search for a command to run...

فيديوإكسوم: تلخيص بصري ونصي متعدد الوسائط للفيديوهات

Jingyang Lin Hang Hua Ming Chen Yikang Li Jenhao Hsiao Chiuman Ho Jiebo Luo

الملخص

تهدف ملخصات الفيديو إلى استخلاص المعلومات الأكثر أهمية من فيديو مصدر لتقديم مقطع مختصر أو سرد نصي. في الماضي، تم اقتراح أساليب مختلفة حسب ما إذا كان الإخراج مقطع فيديو أو نصًا، مما أدى إلى تجاهل العلاقة بين المهمتين الشاكلتين المترابطتين، وهما ملخصات الفيديو وملخصات النص. نقترح مهمة جديدة تجمع بين ملخصات الفيديو والنص. الهدف هو إنتاج مقطع فيديو مختصر مع الملخص النصي المقابل من فيديو طويل، ويُشار إلى هذين المخرجين معًا باسم "ملخص متعدد الوسائط". يجب أن يكون المقطع المختصر والنص الناتج متناسقين من حيث المعنى. ولتحقيق ذلك، نقوم أولاً ببناء مجموعة بيانات كبيرة مُعلّمة يدويًا تُسمى VideoXum (حيث يشير X إلى وسائط مختلفة). وتُعدّ هذه المجموعة مُعاد ترميزها بناءً على مجموعة بيانات ActivityNet. وبعد استبعاد الفيديوهات التي لا تلبي متطلبات الطول، تبقى 14,001 فيديو طويلًا في مجموعتنا الجديدة. ويحتوي كل فيديو في المجموعة المُعاد ترميزها على ملخصات فيديو مُعلّمة يدويًا والملخصات النصية المقابلة لها. ثم نصمم نموذجًا جديدًا من نوع النموذج المتكامل من البداية إلى النهاية يُسمى VTSUM-BILP لمعالجة التحديات المرتبطة بالمهام المقترحة. علاوةً على ذلك، نقترح مقياسًا جديدًا يُسمى VT-CLIPScore لمساعدة تقييم الاتساق المعنوي للملخصات المتعددة الوسائط. وتحقيقًا لنتائج واعدة في هذه المهمة الجديدة، يُثبت النموذج المقترح معيارًا مرجعيًا للبحث المستقبلي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp