منذ 2 أشهر

VAST: نموذج وقاعدة بيانات شاملة متعددة الوسائط للرؤية والصوت والترميز النصي والنص

Sihan Chen; Handong Li; Qunbo Wang; Zijia Zhao; Mingzhen Sun; Xinxin Zhu; Jing Liu

الملخص

تم استكشاف الرؤية والنص بشكل كامل في النماذج الأساسية المعاصرة للفيديو والنص، بينما لم تتلق الوسائط الأخرى مثل الصوت والكلمات المرئية في الفيديوهات الاهتمام الكافي. في هذا البحث، نسعى إلى إقامة علاقات بين المسارات متعددة الوسائط للفيديو، بما في ذلك الرؤية، الصوت، والكلمات المرئية، والنص من خلال استكشاف مجموعة بيانات كبيرة الحجم تُولدت تلقائيًا وتُسمى VAST-27M (مجموعة بيانات الرؤية والصوت والكلمات المرئية الكبرى). تحديدًا، نقوم أولاً بجمع 27 مليون مقطع فيديو من المجال المفتوح وتدريب نموذجين منفصلين للرؤية والصوت لتوليد التوصيفات البصرية والسمعية. ثم، نستخدم نموذج لغة كبير جاهز (Large Language Model - LLM) لدمج التوصيفات المُولدة مع الكلمات المرئية ودلالات التعليمات في توصيفات متعددة الوسائط. بناءً على مجموعة البيانات المقترحة VAST-27M، قمنا بتدريب نموذج أساسي متعدد الوسائط للفيديو والنص يُسمى VAST (النموذج الأساسي للرؤية والصوت والكلمات المرئية)، والذي يمكنه الإدراك ومعالجة وسائط الرؤية والصوت والكلمات المرئية من الفيديو ودعم مهام مختلفة بشكل أفضل بما في ذلك مهام الرؤية-النص، الصوت-النص، ومهمة الفيديو متعدد الوسائط (استرجاع المعلومات، توليد التوصيفات وأسئلة وإجابات). تم إجراء تجارب واسعة النطاق لإثبات فعالية مجموعة البيانات المقترحة VAST-27M والنماذج الأساسية VAST. حقق VAST 22 نتيجة جديدة رائدة على مختلف مقاييس العبور بين الوسائط. سيتم إطلاق الشيفرة البرمجية والنماذج ومجموعة البيانات على الرابط https://github.com/TXH-mercury/VAST.