Video-LLaMA: نموذج لغوي صوتي بصري مُعَدَّل بالتعليمات لفهم الفيديو

نقدم إطار فيديو-لايما (Video-LLaMA)، وهو إطار متعدد الوسائط يمنح نماذج اللغة الكبيرة (LLMs) القدرة على فهم المحتوى البصري والسمعي في الفيديو. يتم تدريب فيديو-لايما عبر التعلم العابر من مُشفرات الصور والصوت المُدربة مسبقًا والمجمدة، بالإضافة إلى نماذج اللغة الكبيرة المجمدة. على عكس الأعمال السابقة التي كانت تكمل نماذج اللغة الكبيرة لمعالجة الإشارات البصرية أو السمعية فقط، فإن فيديو-لايما يمكّن فهم الفيديو من خلال التعامل مع تحديين رئيسيين: (1) التقاط التغيرات الزمنية في المشاهد البصرية، (2) دمج الإشارات البصرية والسمعية. للتعامل مع التحدي الأول، نقترح استخدام Video Q-former لدمج مشفر الصور المُدرب مسبقًا في مشفر الفيديو الخاص بنا ونقدم مهمة توليد النص من الفيديو لتعلم العلاقة بين الفيديو واللغة. بالنسبة للتحدي الثاني، نستفيد من ImageBind، وهو نموذج تمثيل شامل يُحاذا بين عدة وسائط، كمشفر الصوت المُدرب مسبقًا ونقوم بتقديم Audio Q-former فوق ImageBind لتعلم تمثيل الاستعلامات السمعية المعقولة لنموذج اللغة الكبيرة. لمحاذاة خرج كل من مشفر الصور ومشفر الصوت مع فضاء تمثيل نموذج اللغة الكبيرة، نقوم أولاً بتدريب فيديو-لايما على كميات كبيرة من أزواج الفيديوهات/الصور مع العناوين النصية، ثم ضبط النموذج باستخدام مجموعات بيانات تعليمية بصرية ذات جودة أعلى ولكن بكميات معتدلة. لقد اكتشفنا أن فيديو-لايما يظهر القدرة على إدراك ومعرفة محتوى الفيديوهات وإنتاج ردود ذات معنى تستند إلى المعلومات البصرية والسمعية المقدمة في الفيديوهات.