فاموس: نماذج أفعال متعددة الاستخدامات لفهم الفيديو

ما الذي يجعل التمثيلات الجيدة لفهم الفيديو، مثل توقع الأنشطة المستقبلية أو الإجابة على أسئلة مشروطة بالفيديو؟ بينما تركز النهج السابقة على التعلم من البداية إلى النهاية مباشرة من بيكسلات الفيديو، نقترح إعادة النظر في التمثيلات القائمة على النص، مثل التسميات العامة للفيديو، والتي يمكن فهمها وتستهلك مباشرة بواسطة نماذج اللغة الكبيرة (LLMs). بشكل حدسي، قد تتطلب مهام فهم الفيديو المختلفة تمثيلات مكملة وبمستويات مختلفة من الدقة. لتحقيق هذا الغرض، نقترح نماذج العمل المتعددة الاستخدامات (Vamos)، وهو إطار تعلم يُ aliment بواسطة نموذج لغة كبير كـ "مفكر"، ويمكنه استخدام المتجهات البصرية والوصف النصي الحر كمدخلاته بمرنة. للتعبير عن الأدلة النصية الهامة للإجابة على الأسئلة، نعمم مفهوم نموذج الزجاجة إلى العمل مع الرموز والنماذج غير الخطية، والذي يستخدم الانتباه الصعب لاختيار مجموعة صغيرة من الرموز من الوصف النصي الحر كمدخلات لنموذج المفكر LLM. قمنا بتقييم Vamos على خمس مقاييس مكملة هي Ego4D وNeXT-QA وIntentQA وSpacewalk-18 وEgoSchema، فيما يتعلق بقدراته على نمذجة الديناميكيات الزمنية وتشفير التاريخ البصري وإجراء الاستدلال. بشكل مفاجئ، رصدنا أن التمثيلات القائمة على النص تحقق أداءً تنافسياً باستمرار في جميع المقاييس، وأن المتجهات البصرية توفر تحسينًا طفيفًا أو لا توفر أي تحسين في الأداء، مما يدل على فعالية التمثيل النصي للفيديو في عصر نماذج اللغة الكبيرة (LLM). كما أظهرنا أن نموذج الزجاجة الرمزية الخاص بنا قادر على اختيار الأدلة ذات الصلة من الوصف النصي الحر، دعم التدخل في وقت الاختبار، ويحقق سرعة استدلال تقريبية خمسة أضعاف بينما يحافظ على أداء تنافسي في الإجابة على الأسئلة. تم إطلاق الشيفرة والنماذج بشكل عام في https://brown-palm.github.io/Vamos/注:在阿拉伯语中,“aliment”一词并不常见,通常会使用“تمكين”或“دعم”来替代。因此,这里选择了“ aliment ”的近义词“تمكين”。