HyperAIHyperAI
منذ 2 أشهر

قصة طويلة مختصرة: طريقة تلخيص ثم البحث للإجابة على أسئلة الفيديو الطويل

Jiwan Chung; Youngjae Yu
قصة طويلة مختصرة: طريقة تلخيص ثم البحث للإجابة على أسئلة الفيديو الطويل
الملخص

النماذج اللغوية الكبيرة مثل GPT-3 قد أظهرت قدرة مثيرة للإعجاب على التكيف مع المهام الجديدة دون الحاجة إلى بيانات تدريب خاصة بالمهام. كانت هذه القدرة فعالة بشكل خاص في بيئات مثل الإجابة على الأسئلة нарратيفية، حيث تكون تنوع المهام كبيرًا ولكن البيانات المتاحة للإشراف قليلة. في هذا البحث، ندرس إذا كان يمكن لهذه النماذج اللغوية أن تمتد قدراتها على الاستدلال بدون تدريب (zero-shot reasoning) إلى السرد الطويل متعدد الوسائط في المحتوى الإعلامي مثل الدراما والأفلام والرسوم المتحركة، حيث يلعب القصة دورًا أساسيًا. نقترح إطار عمل "Long Story Short" للإجابة على الأسئلة المتعلقة بمقاطع الفيديو السردية، والذي يقوم أولاً بتلخيص سرد الفيديو إلى قصة قصيرة ومن ثم يبحث عن أجزاء من الفيديو ذات صلة بالسؤال. كما نقترح تعزيز مطابقة الصور باستخدام CLIPCheck. يتفوق نموذجنا بشكل كبير على النماذج الرقابية الأكثر تقدمًا، مما يؤكد إمكانات الإجابة على الأسئلة بدون تدريب (zero-shot QA) للفيديوهات الطويلة.注:在阿拉伯语中,“narратيفية”通常写作“سردية”,但为了保持与原文的一致性,这里使用了“narратيفية”。如果需要更符合阿拉伯语习惯的表达,可以将其改为“سردية”。

قصة طويلة مختصرة: طريقة تلخيص ثم البحث للإجابة على أسئلة الفيديو الطويل | أحدث الأوراق البحثية | HyperAI