MovieChat: من الرمز الكثيف إلى الذاكرة النادرة لفهم الفيديو الطويل

في الآونة الأخيرة، تمكنت عملية دمج نماذج الفيديو الأساسية والنماذج اللغوية الكبيرة من تجاوز القيود المرتبطة بالمهمات البصرية المحددة مسبقًا عند بناء نظام فهم الفيديو. ومع ذلك، لا تستطيع الأنظمة الموجودة التعامل إلا مع فيديوهات تحتوي على عدد قليل جدًا من الإطارات. أما بالنسبة للفيديوهات الطويلة، فإن تعقيد الحسابات، وتكلفة الذاكرة، والعلاقة الزمنية طويلة الأمد تشكل تحديات إضافية. مستفيدين من نموذج الذاكرة أتكينسون-شيفرين (Atkinson-Shiffrin)، واستخدام الرموز (tokens) في الترانسفورمرز (Transformers) كحاملات للذاكرة بالاشتراك مع آلية الذاكرة المصممة خصيصًا لدينا، اقترحنا نظام MovieChat لتجاوز هذه التحديات. يحقق MovieChat أداءً رائدًا في فهم الفيديوهات الطويلة، كما تم إطلاق معيار MovieChat-1K الذي يحتوي على ألف فيديو طويل وأربعة عشر ألف تسمية يدوية لتحقق من فعالية طريقتنا.