HyperAIHyperAI

Command Palette

Search for a command to run...

VideoAgent: فهم الفيديو الطويل الشكل باستخدام نموذج اللغة الكبير كوكيل

Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy

الملخص

تمثّل فهم الفيديو الطويل تحديًا كبيرًا في مجال الرؤية الحاسوبية، ويتطلب نموذجًا قادرًا على الاستدلال على تسلسلات متعددة الوسائط طويلة الأمد. مستوحاة من العملية المعرفية البشرية لفهم الفيديو الطويل، نركّز على الاستدلال التفاعلي والتخطيط، بدلًا من القدرة على معالجة مدخلات بصرية طويلة. نقدّم نظامًا جديدًا قائمة على الوكيل يُسمّى VideoAgent، يُستخدم فيه نموذج لغة كبير كوكيل مركزي لتحديد المعلومات الحاسمة وجمعها تدريجيًا للإجابة على سؤال ما، بينما تُستخدم نماذج أساسية متعددة الوسائط (vision-language foundation models) كأدوات لترجمة واسترجاع المعلومات البصرية. عند تقييمه على معايير التحدي EgoSchema وNExT-QA، حقق VideoAgent دقة صفرية (zero-shot accuracy) بلغت 54.1% و71.3% على التوالي، باستخدام متوسط 8.4 و8.2 إطارًا فقط على التوالي. تُظهر هذه النتائج فعالية وكفاءة متفوّقة لطرائقنا مقارنة بالأساليب الرائدة الحالية، مما يبرز الإمكانات الكامنة للنهج القائمة على الوكيل في تطوير فهم الفيديو الطويل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VideoAgent: فهم الفيديو الطويل الشكل باستخدام نموذج اللغة الكبير كوكيل | مستندات | HyperAI