فهم مقاطع الفيديو الطويلة باستخدام نماذج اللغة متعددة الوسائط

النماذج اللغوية الكبيرة (LLMs) قد مكّنت الأساليب الحديثة القائمة على نماذج LLM من تحقيق أداء ممتاز في مقاييس فهم الفيديوهات الطويلة. نحن نستكشف كيف تؤثر المعرفة العالمية الواسعة والمهارات التحليلية القوية للنماذج الأساسية LLM على هذا الأداء المتميز. بشكل مفاجئ، نكتشف أن الأساليب القائمة على LLM يمكن أن تحقق دقة مفاجئة جيدة في مهام الفيديو الطويل مع وجود معلومات فيديو محدودة، وأحيانًا حتى دون أي معلومات خاصة بالفيديو. بناءً على هذا الاكتشاف، نقوم باستكشاف حقن المعلومات الخاصة بالفيديو في إطار عمل قائم على LLM. نستخدم أدوات الرؤية الجاهزة لاستخراج ثلاث وسائط لمعلومات مركزية حول الأشياء من الفيديوهات، ثم نستفيد من اللغة الطبيعية كوسيلة لدمج هذه المعلومات. يُظهر الإطار متعدد الوسائط لفهم الفيديو (MVU) لدينا أداءً رائدًا في العديد من مقاييس فهم الفيديو. كما يثبت الأداء القوي أيضًا في مهام مجال الروبوتات قوة عامليته. الرمز البرمجي: https://github.com/kahnchana/mvu