فيديو-لا فيت: التدريب الموحد للفيديو واللغة باستخدام تقنية التجزئة المرئية-العاطفية المنفصلة

في ضوء التقدم الحديث في نماذج اللغة الكبيرة متعددة الوسائط (LLMs)، هناك اهتمام متزايد بتوسيع نطاق هذه النماذج من بيانات الصور والنصوص إلى مقاطع الفيديو الواقعية الأكثر إفادة. مقارنة بالصور الثابتة، يطرح الفيديو تحديات فريدة لتدريب النماذج على نطاق واسع بشكل فعال بسبب نمذجة ديناميكياته المكانية-الزمانية. في هذا البحث، نعالج مثل هذه القيود في تدريب الفيديو-اللغة من خلال تحليل فيديو كفاءي يمثل كل فيديو كإطارات رئيسية (keyframes) وحركات زمنية. يتم بعد ذلك تكييف هذه الإطارات والحركات لنموذج اللغة الكبير باستخدام مُقطِّعات مصممة بدقة تقوم بتقسيم المعلومات البصرية والزمنية إلى عدد قليل من الرموز، مما يتيح التدريب التوليدي الموحد للفيديوهات والصور والنصوص. عند الاستدلال، يتم استعادة الرموز المولدة من نموذج اللغة الكبير بعناية إلى المساحة البكسلية المستمرة الأصلية لإنشاء محتوى فيديو مختلف. أثبت الإطار المقترح لدينا قدرته على فهم وإنتاج محتوى الصور والفيديوهات من خلال أدائه التنافسي عبر 13 معيارًا متعدد الوسائط في فهم وإنتاج الصور والفيديوهات. يمكن الوصول إلى شفرتنا والنماذج الخاصة بنا عبر الرابط: https://video-lavit.github.io.