HyperAIHyperAI
منذ 2 أشهر

نموذج الصورة-اللغة الذاتي الارتباط لتحديد موقع الفيديو وسؤال الإجابة

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal
نموذج الصورة-اللغة الذاتي الارتباط لتحديد موقع الفيديو وسؤال الإجابة
الملخص

أظهرت الدراسات الحديثة نتائج واعدة في استخدام النماذج المسبقة التدريب الكبيرة للصورة واللغة في الإجابة على أسئلة الفيديو. رغم أن هذه النماذج الصورة-اللغة يمكنها تحسين تعلم تمثيل النماذج الفيديو-اللغة بكفاءة، إلا أنها غالبًا ما تقوم بدمج الإطارات المرئية للفيديو بشكل موحد دون نمذجة زمنية صريحة ووعي باللغة. عندما تكون جزءًا فقط من مدخل الفيديو ذات صلة بالاستعلام اللغوي، يمكن أن يؤدي هذا الدمج الموحد للأطر إلى فقدان العلامات البصرية المهمة. رغم أن البشر غالبًا ما يجدون لحظة فيديو للتركيز عليها ويعدونها مرة أخرى للإجابة على الأسئلة، فإن تدريب محدد اللحظات الفيديوية الواعي بالاستعلام يتطلب عادةً شروحًا باهظة الثمن وتكلفة حسابية عالية. لحل هذه المشكلة، نقترح إطار العمل الذاتي المتسلسل لموقع الفيديو والإجابة (SeViLA)، وهو إطار جديد يستخدم نموذج صورة-لغة واحد (BLIP-2) للتعامل مع كل من تحديد الإطارات الرئيسية الزمنية والإجابة على الأسئلة في الفيديوهات. يتكون إطار SeViLA من وحدتين: موقع ومجيب، حيث يتم ضبط كلاهما بشكل فعال من BLIP-2. نقترح طريقين لربط هاتين الوحدتين لأجل الاستدلال المتتابع والتحسين الذاتي. أولاً، في السلسلة الأمامية، يجد الموقع عدة إطارات رئيسية واعية باللغة داخل الفيديو، والتي يستخدمها المجيب للتنبؤ بالإجابة. ثانياً، في السلسلة العكسية، يولد المجيب علامات زائفة لإطارات رئيسية لتحسين الموقع، مما يخفف الحاجة إلى شروح باهظة الثمن لتخصيص اللحظات الزمنية للفيديو. حقق إطار SeViLA الخاص بنا تفوقًا على العديد من النماذج الأساسية القوية في خمس مقاييس تحدي للإجابة على أسئلة الفيديو وتوقع الأحداث، وأحرز أفضل مستوى متقدم حتى الآن في كل من الإعدادات المعاد فيها التدريب (NExT-QA, STAR) وفي الإعدادات الصفرية (NExT-QA, STAR, How2QA, VLEP). كما قمنا أيضًا بتحليل تأثير الموقع، مقارنة الموقع بنماذج التحديد الزمني الأخرى، إعادة التدريب والتحسين الذاتي للموقع، وتغيير عدد الإطارات الرئيسية.

نموذج الصورة-اللغة الذاتي الارتباط لتحديد موقع الفيديو وسؤال الإجابة | أحدث الأوراق البحثية | HyperAI