منذ 7 أيام

COSA: نموذج أساسي متعدد الوسائط بصري-لغوي مُدرَّب مسبقًا على عينات متسلسلة

Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu

الملخص

نظرًا للحجم المحدود والجودة المنخفضة لقاعدة البيانات التدريبية الخاصة بالفيديو-نص، تُستخدم معظم نماذج الأساس البصرية-اللغوية مجموعات بيانات الصورة-النص في مرحلة التدريب المسبق، مع التركيز الأساسي على نمذجة التمثيلات البصرية الدلالية، بينما تتجاهل التمثيلات الدلالية الزمنية والارتباطات الزمنية. ولحل هذه المشكلة، نقترح نموذج COSA، وهو نموذج أساس بصري-لغوي مُدرّب مسبقًا باستخدام عينات مُتسلسلة (COncatenated SAmple). يُعالج نموذج COSA محتوى الصورة والمؤشرات الزمنية على مستوى الحدث بشكل مشترك باستخدام فقط مجموعات بيانات الصورة-النص. ونحقق ذلك من خلال تسلسل دمج أزواج متعددة من الصور-النص كمدخلات للتدريب المسبق. ويُحوّل هذا التحويل بشكل فعّال مجموعات بيانات الصورة-النص الحالية إلى قاعدة بيانات افتراضية مماثلة لنص الفيديو الطويل (long-form video-paragraph)، مما يمكّن من تحسين التحولات المشهدية وتقديم علاقة واضحة بين الوصف والحدث. أظهرت التجارب الواسعة أن نموذج COSA يُحسّن الأداء بشكل متسق عبر مجموعة واسعة من المهام اللاحقة، بما في ذلك مهام الفيديو-النص الطويل والقصير، بالإضافة إلى مهام الصورة-النص مثل الاسترجاع والوصف والأسئلة والأجوبة. وبشكل ملحوظ، حقق نموذج COSA نتائج قياسية على العديد من المعايير التنافسية. تم إصدار الكود والنماذج على الرابط: https://github.com/TXH-mercury/COSA.