الملخص

نقدم LaViLa، وهي طريقة جديدة لتعلم تمثيلات الفيديو واللغة من خلال الاستفادة من نماذج اللغة الكبيرة (LLMs). نعيد استخدام النماذج اللغوية المدربة مسبقًا بحيث تتأثر بالمدخلات البصرية، ونقوم بضبطها الدقيق لخلق رواة فيديو آليين. تقدم الروايات التي تولدها نظامنا آليًا العديد من المزايا، بما في ذلك التغطية الكثيفة للفيديوهات الطويلة، تناسق زمني أفضل بين المعلومات البصرية والنصوص، وتنوع أعلى بكثير في النصوص. يتفوق التضمين الفيديو-النصي الذي يتم تعلمه بطريقة مقارنة باستخدام هذه الروايات الآلية الإضافية على الحالة السابقة للتقنية الرائدة في عدة مهام فيديو من وجهة النظر الأولى والثالثة، سواءً في الإعدادات الصفرية أو بعد ضبطها الدقيق. وبشكل أكثر إشراقًا، تحصل LaViLa على زيادة مطلقة بنسبة 10.1% في تصنيف EGTEA و5.9% في مقاييس استرجاع Epic-Kitchens-100 متعدد الحالات. بالإضافة إلى ذلك، أظهرت LaViLa التي تم تدريبها باستخدام نصف الروايات فقط من مجموعة بيانات Ego4D أداءً أفضل من النماذج الأساسية التي تم تدريبها على المجموعة الكاملة، وأظهرت سلوكًا قائمًا على الزيادة مع زيادة بيانات التدريب الأولي وحجم النموذج.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

تعلم تمثيلات الفيديو من نماذج اللغة الكبيرة

Yue Zhao extsuperscript1,2*, Ishan Misra extsuperscript1 Philipp Krähenbühl extsuperscript2 Rohit Girdhar extsuperscript1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تعلم تمثيلات الفيديو من نماذج اللغة الكبيرة

Yue Zhao extsuperscript1,2*, Ishan Misra extsuperscript1 Philipp Krähenbühl extsuperscript2 Rohit Girdhar extsuperscript1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تعلم تمثيلات الفيديو من نماذج اللغة الكبيرة

Yue Zhao extsuperscript1,2*, Ishan Misra extsuperscript1 Philipp Krähenbühl extsuperscript2 Rohit Girdhar extsuperscript1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters