HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيلات الفيديو من نماذج اللغة الكبيرة

Yue Zhao extsuperscript1,2*, Ishan Misra extsuperscript1 Philipp Krähenbühl extsuperscript2 Rohit Girdhar extsuperscript1

الملخص

نقدم LaViLa، وهي طريقة جديدة لتعلم تمثيلات الفيديو واللغة من خلال الاستفادة من نماذج اللغة الكبيرة (LLMs). نعيد استخدام النماذج اللغوية المدربة مسبقًا بحيث تتأثر بالمدخلات البصرية، ونقوم بضبطها الدقيق لخلق رواة فيديو آليين. تقدم الروايات التي تولدها نظامنا آليًا العديد من المزايا، بما في ذلك التغطية الكثيفة للفيديوهات الطويلة، تناسق زمني أفضل بين المعلومات البصرية والنصوص، وتنوع أعلى بكثير في النصوص. يتفوق التضمين الفيديو-النصي الذي يتم تعلمه بطريقة مقارنة باستخدام هذه الروايات الآلية الإضافية على الحالة السابقة للتقنية الرائدة في عدة مهام فيديو من وجهة النظر الأولى والثالثة، سواءً في الإعدادات الصفرية أو بعد ضبطها الدقيق. وبشكل أكثر إشراقًا، تحصل LaViLa على زيادة مطلقة بنسبة 10.1% في تصنيف EGTEA و5.9% في مقاييس استرجاع Epic-Kitchens-100 متعدد الحالات. بالإضافة إلى ذلك، أظهرت LaViLa التي تم تدريبها باستخدام نصف الروايات فقط من مجموعة بيانات Ego4D أداءً أفضل من النماذج الأساسية التي تم تدريبها على المجموعة الكاملة، وأظهرت سلوكًا قائمًا على الزيادة مع زيادة بيانات التدريب الأولي وحجم النموذج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp