HyperAIHyperAI
منذ 7 أيام

TraveLER: إطار عمل متعدد موديولاري لوكالات LMM لاستجابات الأسئلة المتعلقة بالفيديو

Chuyi Shang, Amos You, Sanjay Subramanian, Trevor Darrell, Roei Herzig
TraveLER: إطار عمل متعدد موديولاري لوكالات LMM لاستجابات الأسئلة المتعلقة بالفيديو
الملخص

في الآونة الأخيرة، حققت النماذج الكبيرة متعددة الوسائط القائمة على الصور (LMMs) تقدماً ملحوظاً في مهام الإجابة على الأسئلة المتعلقة بالفيديوهات (VideoQA) باستخدام نهج إطاري (frame-wise)، وذلك بفضل التدريب المسبق على نطاق واسع بطريقة الصفر (zero-shot). ومع ذلك، تتطلب هذه النماذج القدرة على العثور على المعلومات ذات الصلة، واستخلاصها، والإجابة على السؤال في نفس الوقت. في الوقت الحالي، تقوم الطرق الحالية بتنفيذ جميع هذه الخطوات في عملية واحدة دون القدرة على التكيف في حال جمع معلومات غير كافية أو غير صحيحة. ولتجاوز هذه المشكلة، نقدّم إطاراً معيّناً لوكيل متعدد النماذج الكبيرة متعددة الوسائط (multi-LMM agent)، مبنياً على عدة وكلاء بدوريات مختلفة، يتم توجيهها بواسطة وكيل مُخطط (Planner agent) الذي يُحدّث تعليماته باستخدام التغذية المرتدة المشتركة من الوكلاء الآخرين. وبشكل خاص، نقترح طريقة تُسمى TraveLER، التي تُمكّن من إعداد خطة للـ"Traversal" (التنقل) عبر الفيديو، وطرح أسئلة حول الإطارات الفردية للـ"Locate" (تحديد) وتخزين المعلومات الأساسية، ثم الـ"Evaluate" (تقييم) ما إذا كانت هناك معلومات كافية للإجابة على السؤال. وأخيراً، إذا كانت المعلومات غير كافية، فإن طريقتنا قادرة على "Replan" (إعادة التخطيط) بناءً على المعرفة المُجمعة. من خلال تجارب مكثفة، وجدنا أن نهج TraveLER يُحسّن الأداء على عدة معايير لاختبار VideoQA دون الحاجة إلى التدريب المخصص (fine-tuning) على مجموعات بيانات محددة. يمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/traveler-framework/TraveLER.

TraveLER: إطار عمل متعدد موديولاري لوكالات LMM لاستجابات الأسئلة المتعلقة بالفيديو | أحدث الأوراق البحثية | HyperAI