TS-LLaVA: بناء الرموز البصرية من خلال الصور المصغرة والعينة لنموذج اللغة الكبير الفيديوي بدون تدريب

التطورات الحديثة في نماذج اللغات الكبيرة متعددة الوسائط (LLMs) أظهرت نجاحًا كبيرًا في فهم المحتوى متعدد الوسائط. بالنسبة للمهام التي تتطلب فهم الفيديو، فإن بناء نماذج الفيديو LLM القائمة على التدريب يواجه صعوبة بسبب ندرة البيانات عالية الجودة والمراجعة جيدًا التي تربط بين الفيديو والنص. بالمقابل، البيانات المرتبطة بين الصور والنصوص تكون أسهل للحصول عليها وهناك تشابه كبير بين الصور والفيديوهات. لذلك، توسيع نطاق استخدام نماذج الصور LLM لمهام فهم الفيديو يعد بديلًا جاذبًا. تطوير استراتيجيات فعالة لضغط الرموز البصرية من عدة إطارات هو طريقة واعدة للاستفادة من النماذج القوية مسبقة التدريب على الصور. في هذا البحث، نستكشف حدود الاستراتيجيات الحالية للضغط لبناء نموذج فيديو LLM خالي من التدريب. أدت هذه النتائج إلى طريقة TS-LLaVA الخاصة بنا، والتي تقوم ببناء الرموز البصرية من خلال استراتيجية الإبهام والعين العشوائية (Thumbnail-and-Sampling). مع وجود فيديو، نقوم باختيار عدد قليل من الإطارات المتساوية المسافات من جميع الإطارات المدخلة لبناء صورة إبهام كإشارة بصرية مفصلة، مكملة برموز بصرية عينية من جميع الإطارات المدخلة. طريقتنا تحقق أفضل الأداء حتى الآن بين النماذج الخالية من التدريب على الفيديو LLM في مختلف المقاييس. بشكل ملحوظ، يتفوق نموذجنا ذو الـ34 مليار معلمة على GPT-4V في مقاييس MVBench ويحقق أداءً مشابهًا لنموذج Video-LLaMA2 القائم على التدريب والذي يحتوي على 72 مليار معلمة في مقاييس MLVU الصعبة. يمكن الحصول على الشيفرة البرمجية من الرابط: https://github.com/tingyu215/TS-LLaVA.