VideoAgent: فهم الفيديو الطويل الشكل باستخدام نموذج اللغة الكبير كوكيل

تمثّل فهم الفيديو الطويل تحديًا كبيرًا في مجال الرؤية الحاسوبية، ويتطلب نموذجًا قادرًا على الاستدلال على تسلسلات متعددة الوسائط طويلة الأمد. مستوحاة من العملية المعرفية البشرية لفهم الفيديو الطويل، نركّز على الاستدلال التفاعلي والتخطيط، بدلًا من القدرة على معالجة مدخلات بصرية طويلة. نقدّم نظامًا جديدًا قائمة على الوكيل يُسمّى VideoAgent، يُستخدم فيه نموذج لغة كبير كوكيل مركزي لتحديد المعلومات الحاسمة وجمعها تدريجيًا للإجابة على سؤال ما، بينما تُستخدم نماذج أساسية متعددة الوسائط (vision-language foundation models) كأدوات لترجمة واسترجاع المعلومات البصرية. عند تقييمه على معايير التحدي EgoSchema وNExT-QA، حقق VideoAgent دقة صفرية (zero-shot accuracy) بلغت 54.1% و71.3% على التوالي، باستخدام متوسط 8.4 و8.2 إطارًا فقط على التوالي. تُظهر هذه النتائج فعالية وكفاءة متفوّقة لطرائقنا مقارنة بالأساليب الرائدة الحالية، مما يبرز الإمكانات الكامنة للنهج القائمة على الوكيل في تطوير فهم الفيديو الطويل.