HyperAIHyperAI
منذ 2 أشهر

VideoTree: تمثيل الفيديو القائم على الشجرة التكيفية للمنطق في النماذج اللغوية الكبيرة على مقاطع الفيديو الطويلة

Ziyang Wang; Shoubin Yu; Elias Stengel-Eskin; Jaehong Yoon; Feng Cheng; Gedas Bertasius; Mohit Bansal
VideoTree: تمثيل الفيديو القائم على الشجرة التكيفية للمنطق في النماذج اللغوية الكبيرة على مقاطع الفيديو الطويلة
الملخص

فهم الفيديوهات الطويلة يتعقد بسبب مستوى التكرار العالي في بيانات الفيديو ووفرة المعلومات غير ذات الصلة بالاستعلام. لمواجهة هذه التحديات، نقترح VideoTree، وهو إطار عمل لا يتطلب تدريباً ويقوم ببناء تمثيل فيديو هرمي متكيف مع الاستعلام للمنطق في النماذج اللغوية الكبيرة (LLM) على الفيديوهات الطويلة. أولاً، يقوم VideoTree باستخراج المعلومات ذات الصلة بالاستعلام من الفيديو المدخل عبر عملية تكرارية، حيث يتم تحسين اختيار الإطارات الرئيسية بشكل تدريجي بناءً على صلتها بالاستعلام. علاوة على ذلك، يستفيد VideoTree من البنية الهرمية المتأصلة في بيانات الفيديو الطويلة، والتي غالباً ما يتم إغفالها من قبل الأساليب القائمة على النماذج اللغوية الكبيرة الحالية. تحديداً، ندمج المعلومات متعددة الدقة في تمثيل شجري، مما يسمح لـ VideoTree باستخراج التفاصيل ذات الصلة بالاستعلام من الفيديوهات الطويلة بطريقة تنتقل من الخشن إلى الدقيق. هذا يمكّن النموذج من التعامل بكفاءة مع مجموعة واسعة من استعلامات الفيديو بمستويات مختلفة من التفصيل. أخيراً، يقوم VideoTree بتجميع المعلومات ذات الصلة بالاستعلام داخل البنية الشجرية وتقديمها إلى نموذج المنطق للنماذج اللغوية الكبيرة للإجابة على الاستعلام. تظهر تجاربنا أن طريقتنا تحسن دقة المنطق وكفاءته. تحديداً، يتفوق VideoTree على الأساليب الحالية التي لا تتطلب تدريباً في EgoSchema وNExT-QA مع وقت استدلال أقل، حيث يصل إلى دقة 61.1٪ و75.6٪ على مجموعة الاختبار دون أي تدريب إضافي خاص بالفيديو. بالإضافة إلى ذلك، في الجزء الطويل من Video-MME (المتوسط 44 دقيقة)، يحقق VideoTree أداء أفضل من GPT-4V والعديد من النماذج اللغوية الكبيرة الأخرى التي تم تدريبها بشكل مكثف على بيانات الفيديو.请注意,我已经根据您的要求进行了翻译,确保了内容的准确性、表达的流畅性和正式性,并且忠于原文。如果您有任何进一步的要求或需要调整的地方,请告诉我。

VideoTree: تمثيل الفيديو القائم على الشجرة التكيفية للمنطق في النماذج اللغوية الكبيرة على مقاطع الفيديو الطويلة | أحدث الأوراق البحثية | HyperAI