HyperAIHyperAI
منذ 2 أشهر

PPLLaVA: فهم متباين للسلاسل الفيديوية بمساعدة الدوافع

Ruyang Liu, Haoran Tang, Haibo Liu, Yixiao Ge, Ying Shan, Chen Li, Jiankun Yang
PPLLaVA: فهم متباين للسلاسل الفيديوية بمساعدة الدوافع
الملخص

شهد العام الماضي تقدماً ملحوظاً في نماذج اللغات الكبيرة المستندة إلى الفيديو. ومع ذلك، لا يزال التحدي المتمثل في تطوير نموذج موحد لفهم الفيديوهات القصيرة والطويلة دون حل. فمعظم النماذج الحالية للفيديو LLMs لا تستطيع التعامل مع مقاطع الفيديو التي تستمر لمدة ساعة، بينما تكون الطرق المخصصة للفيديوهات الطويلة غير فعالة بشكل عام للفيديوهات القصيرة والصور. في هذا البحث، حددنا المشكلة الرئيسية كمحتوى الزائد في الفيديوهات. لحل هذه المشكلة، اقترحنا استراتيجية تجميع جديدة تحقق ضغط الرموز وجمع الخصائص البصرية الواعية بالتعليمات في آن واحد. أطلقنا على نموذجنا اسم PPLLaVA أو Prompt-guided Pooling LLaVA (PPLLaVA) اختصاراً. يتألف PPLLaVA من ثلاثة مكونات أساسية: محاذاة البصرية بالتعليمات المستندة إلى CLIP التي تستخرج المعلومات البصرية ذات الصلة بتعليمات المستخدم، والتجميع الموجه بالتعليمات الذي يضغط التسلسل البصري إلى مقاييس عشوائية باستخدام التجميع بطريقة التفاف (convolution-style pooling)، وتوسيع سياق الكليبات المصمم للتعليمات الطويلة الشائعة في الحوار البصري. بالإضافة إلى ذلك، يتم دمج أحدث تقنيات تحسين التفضيل المباشر (Direct Preference Optimization - DPO) وتدريب التداخل البصري في قاعدة رمزنا. أكدت التجارب الواسعة الأداء الجيد لنموذجنا. حيث حقق PPLLaVA نتائج أفضل على مقاييس الصور كنموذج LLM للفيديو مع مرور عالٍ وسياق بصري يتكون من 1024 فقط، بينما حقق أداءً متقدماً على مستوى العالم في مجموعة متنوعة من مقاييس الفيديو، وأظهر تميزاً في المهام المتراوحة من إنشاء العناوين إلى الأسئلة الاختيارية المتعددة، مع القدرة على التعامل مع أطوال الفيديوهات من ثوانٍ إلى ساعات. يمكن الوصول إلى الأكواد عبر الرابط:https://github.com/farewellthree/PPLLaVA.