إطار بسيط للنماذج اللغوية الكبيرة لأسئلة الإجابة على الفيديو طويل المدى

نقدم إطار عمل LLoVi، وهو إطار يستند إلى اللغة للإجابة على أسئلة الفيديو على المدى الطويل (LVQA). بخلاف طرق فهم الفيديو على المدى الطويل السابقة، التي تكون غالباً مكلفة وتتطلب تصميم نماذج فيديو متخصصة على المدى الطويل (مثل طوابير الذاكرة، طبقات الفضاء الحالة، إلخ)، فإن نهجنا يستخدم مولد تسميات بصرية على مستوى الإطار أو القطعة (مثل BLIP2، LaViLa، LLaVA) مقترناً بنموذج لغة كبير (مثل GPT-3.5، GPT-4)، مما يؤدي إلى إطار عمل LVQA بسيط ومع ذلك فعال بشكل مفاجئ. تحديداً، نفكك جوانب النمذجة قصيرة ومتوسطة المدى في LVQA إلى مرحلتين. أولاً، نستخدم مولد التسميات البصرية قصير المدى لتوليد وصفات نصية لمقاطع فيديو قصيرة (من 0.5 إلى 8 ثوانٍ في الطول) تم استخراجها بكثافة من فيديو إدخال طويل. بعد ذلك، يقوم النموذج اللغوي الكبير بتجميع التسميات البصرية قصيرة المدى المستخرجة بكثافة لأداء الاستدلال الزمني على المدى الطويل اللازم لفهم الفيديو بأكمله والإجابة على السؤال. لتحليل ما يجعل إطارنا البسيط هذا فعالاً للغاية، نقيم بدقة مختلفة مكونات نظامنا. يكشف تحليلنا التجريبي أن اختيار مولد التسميات البصرية والنموذج اللغوي الكبير هو أمر حاسم لتحقيق أداء جيد في LVQA. بالإضافة إلى ذلك، نظهر أن دعوة خاصة تسأل النموذج اللغوي الكبير أولاً لتلخيص التسميات البصرية قصيرة المدى الضوضائية ومن ثم الإجابة على سؤال الإدخال المعطى تؤدي إلى زيادة كبيرة في أداء LVQA. على منصة EgoSchema، التي تُعرف بشكل أفضل كمعيار أسئلة وإجابات الفيديو طويلة الشكل جداً، يحقق طريقة 50.3% من الدقة، مما يتفوق على أفضل طريقة سابقة بأفضل بنسبة 18.1% (ربح مطلق). بالإضافة إلى ذلك، يتفوق نهجنا بنسبة 4.1% و3.1% على NeXT-QA وIntentQA بالمقارنة مع أفضل الأداء السابق. كما نوسع نطاق LLoVi ليشمل LVQA المرتكز على الأرض ونظهر أنه يتفوق على جميع الطرق السابقة في مجموعة بيانات NeXT-GQA. سنقوم بإصدار رمزنا المصدر في https://github.com/CeeZh/LLoVi.请注意,对于一些专有名词如“EgoSchema”,“NeXT-QA”,“IntentQA”以及“NeXT-GQA”,由于它们可能是特定研究项目或数据集的名字,在没有具体背景的情况下,我们保留了这些名词的英文形式以确保准确性。同时,“BLIP2”,“LaViLa”,“LLaVA”和“GPT-3.5”,“GPT-4”也直接使用了英文名称,因为这些模型和技术在阿拉伯语科技文献中通常也会被引用为英文原名。