منذ 2 أشهر

فيديو-لا فيت: التدريب الموحد للفيديو واللغة باستخدام تقنية التجزئة المرئية-العاطفية المنفصلة

Yang Jin; Zhicheng Sun; Kun Xu; Kun Xu; Liwei Chen; Hao Jiang; Quzhe Huang; Chengru Song; Yuliang Liu; Di Zhang; Yang Song; Kun Gai; Yadong Mu

عرض تفاصيل الورقة البحثية

فيديو-لا فيت: التدريب الموحد للفيديو واللغة باستخدام تقنية التجزئة المرئية-العاطفية المنفصلة

الملخص

في ضوء التقدم الحديث في نماذج اللغة الكبيرة متعددة الوسائط (LLMs)، هناك اهتمام متزايد بتوسيع نطاق هذه النماذج من بيانات الصور والنصوص إلى مقاطع الفيديو الواقعية الأكثر إفادة. مقارنة بالصور الثابتة، يطرح الفيديو تحديات فريدة لتدريب النماذج على نطاق واسع بشكل فعال بسبب نمذجة ديناميكياته المكانية-الزمانية. في هذا البحث، نعالج مثل هذه القيود في تدريب الفيديو-اللغة من خلال تحليل فيديو كفاءي يمثل كل فيديو كإطارات رئيسية (keyframes) وحركات زمنية. يتم بعد ذلك تكييف هذه الإطارات والحركات لنموذج اللغة الكبير باستخدام مُقطِّعات مصممة بدقة تقوم بتقسيم المعلومات البصرية والزمنية إلى عدد قليل من الرموز، مما يتيح التدريب التوليدي الموحد للفيديوهات والصور والنصوص. عند الاستدلال، يتم استعادة الرموز المولدة من نموذج اللغة الكبير بعناية إلى المساحة البكسلية المستمرة الأصلية لإنشاء محتوى فيديو مختلف. أثبت الإطار المقترح لدينا قدرته على فهم وإنتاج محتوى الصور والفيديوهات من خلال أدائه التنافسي عبر 13 معيارًا متعدد الوسائط في فهم وإنتاج الصور والفيديوهات. يمكن الوصول إلى شفرتنا والنماذج الخاصة بنا عبر الرابط: https://video-lavit.github.io.