HyperAIHyperAI
منذ 2 أشهر

MovieChat: من الرمز الكثيف إلى الذاكرة النادرة لفهم الفيديو الطويل

Enxin Song; Wenhao Chai; Guanhong Wang; Yucheng Zhang; Haoyang Zhou; Feiyang Wu; Haozhe Chi; Xun Guo; Tian Ye; Yanting Zhang; Yan Lu; Jenq-Neng Hwang; Gaoang Wang
MovieChat: من الرمز الكثيف إلى الذاكرة النادرة لفهم الفيديو الطويل
الملخص

في الآونة الأخيرة، تمكنت عملية دمج نماذج الفيديو الأساسية والنماذج اللغوية الكبيرة من تجاوز القيود المرتبطة بالمهمات البصرية المحددة مسبقًا عند بناء نظام فهم الفيديو. ومع ذلك، لا تستطيع الأنظمة الموجودة التعامل إلا مع فيديوهات تحتوي على عدد قليل جدًا من الإطارات. أما بالنسبة للفيديوهات الطويلة، فإن تعقيد الحسابات، وتكلفة الذاكرة، والعلاقة الزمنية طويلة الأمد تشكل تحديات إضافية. مستفيدين من نموذج الذاكرة أتكينسون-شيفرين (Atkinson-Shiffrin)، واستخدام الرموز (tokens) في الترانسفورمرز (Transformers) كحاملات للذاكرة بالاشتراك مع آلية الذاكرة المصممة خصيصًا لدينا، اقترحنا نظام MovieChat لتجاوز هذه التحديات. يحقق MovieChat أداءً رائدًا في فهم الفيديوهات الطويلة، كما تم إطلاق معيار MovieChat-1K الذي يحتوي على ألف فيديو طويل وأربعة عشر ألف تسمية يدوية لتحقق من فعالية طريقتنا.