فيديو-راج: فهم الفيديوهات الطويلة المدعومة بالاسترجاع والمحاذاة البصرية

النماذج اللغوية-الفيديو الكبيرة (LVLMs) الحالية تواجه صعوبة في فهم الفيديوهات الطويلة بشكل صحيح بسبب نقص السياق. لحل هذه المشكلة، ظهرت تقنيات تعديل النماذج اللغوية-الفيديو ذات السياق الطويل وتوظيف الوكلاء المستندين إلى GPT كحلول واعدة. ومع ذلك، فإن تعديل النماذج اللغوية-الفيديو سيتطلب بيانات عالية الجودة وموارد GPU كبيرة، بينما سيعتمد الوكلاء المستندون إلى GPT على نماذج مملوكة (مثل GPT-4o). في هذا البحث، نقترح نظام Video Retrieval-Augmented Generation (Video-RAG)، وهو خط أنابيب خالي من التدريب واقتصادي يوظف النصوص المساعدة المتناسقة بصريًا لتسهيل التناسق بين الأصناف المختلفة مع توفير معلومات إضافية تتجاوز المحتوى البصري. بصفة خاصة، نستفيد من أدوات خارجية مفتوحة المصدر لاستخراج المعلومات المتناسقة بصريًا من البيانات الفيديوية النقية (مثل الصوت، الشخصيات البصرية، وكشف الأشياء)، وندمج المعلومات المستخرجة في نموذج LVLM موجود كنصوص مساعدة، جنبًا إلى جنب مع الإطارات الفيديوية والاستفسارات، بطريقة سهلة الاستخدام والتركيب. يقدم نظام Video-RAG عدة مزايا رئيسية: (i) خفة الوزن مع تكاليف حسابية منخفضة بفضل استرجاع الدورة الواحدة؛ (ii) سهولة التنفيذ والتوافق مع أي نموذج LVLM؛ و(iii) زيادة أداء كبيرة ومتسقة عبر مقاييس فهم الفيديوهات الطويلة، بما في ذلك Video-MME، MLVU، و LongVideoBench. ومن الجدير بالذكر أن نموذجنا يظهر أداءً أفضل من النماذج المملوكة مثل Gemini-1.5-Pro و GPT-4o عند استخدامه مع نموذج بحجم 72 مليار معلمة.