HyperAIHyperAI

Command Palette

Search for a command to run...

فيديو-لا فيت: التدريب الموحد للفيديو واللغة باستخدام تقنية التجزئة المرئية-العاطفية المنفصلة

الملخص

في ضوء التقدم الحديث في نماذج اللغة الكبيرة متعددة الوسائط (LLMs)، هناك اهتمام متزايد بتوسيع نطاق هذه النماذج من بيانات الصور والنصوص إلى مقاطع الفيديو الواقعية الأكثر إفادة. مقارنة بالصور الثابتة، يطرح الفيديو تحديات فريدة لتدريب النماذج على نطاق واسع بشكل فعال بسبب نمذجة ديناميكياته المكانية-الزمانية. في هذا البحث، نعالج مثل هذه القيود في تدريب الفيديو-اللغة من خلال تحليل فيديو كفاءي يمثل كل فيديو كإطارات رئيسية (keyframes) وحركات زمنية. يتم بعد ذلك تكييف هذه الإطارات والحركات لنموذج اللغة الكبير باستخدام مُقطِّعات مصممة بدقة تقوم بتقسيم المعلومات البصرية والزمنية إلى عدد قليل من الرموز، مما يتيح التدريب التوليدي الموحد للفيديوهات والصور والنصوص. عند الاستدلال، يتم استعادة الرموز المولدة من نموذج اللغة الكبير بعناية إلى المساحة البكسلية المستمرة الأصلية لإنشاء محتوى فيديو مختلف. أثبت الإطار المقترح لدينا قدرته على فهم وإنتاج محتوى الصور والفيديوهات من خلال أدائه التنافسي عبر 13 معيارًا متعدد الوسائط في فهم وإنتاج الصور والفيديوهات. يمكن الوصول إلى شفرتنا والنماذج الخاصة بنا عبر الرابط: https://video-lavit.github.io.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp