تعلم تمثيلات الفيديو من نماذج اللغة الكبيرة

نقدم LaViLa، وهي طريقة جديدة لتعلم تمثيلات الفيديو واللغة من خلال الاستفادة من نماذج اللغة الكبيرة (LLMs). نعيد استخدام النماذج اللغوية المدربة مسبقًا بحيث تتأثر بالمدخلات البصرية، ونقوم بضبطها الدقيق لخلق رواة فيديو آليين. تقدم الروايات التي تولدها نظامنا آليًا العديد من المزايا، بما في ذلك التغطية الكثيفة للفيديوهات الطويلة، تناسق زمني أفضل بين المعلومات البصرية والنصوص، وتنوع أعلى بكثير في النصوص. يتفوق التضمين الفيديو-النصي الذي يتم تعلمه بطريقة مقارنة باستخدام هذه الروايات الآلية الإضافية على الحالة السابقة للتقنية الرائدة في عدة مهام فيديو من وجهة النظر الأولى والثالثة، سواءً في الإعدادات الصفرية أو بعد ضبطها الدقيق. وبشكل أكثر إشراقًا، تحصل LaViLa على زيادة مطلقة بنسبة 10.1% في تصنيف EGTEA و5.9% في مقاييس استرجاع Epic-Kitchens-100 متعدد الحالات. بالإضافة إلى ذلك، أظهرت LaViLa التي تم تدريبها باستخدام نصف الروايات فقط من مجموعة بيانات Ego4D أداءً أفضل من النماذج الأساسية التي تم تدريبها على المجموعة الكاملة، وأظهرت سلوكًا قائمًا على الزيادة مع زيادة بيانات التدريب الأولي وحجم النموذج.