HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج الصورة-اللغة الذاتي الارتباط لتحديد موقع الفيديو وسؤال الإجابة

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal

الملخص

أظهرت الدراسات الحديثة نتائج واعدة في استخدام النماذج المسبقة التدريب الكبيرة للصورة واللغة في الإجابة على أسئلة الفيديو. رغم أن هذه النماذج الصورة-اللغة يمكنها تحسين تعلم تمثيل النماذج الفيديو-اللغة بكفاءة، إلا أنها غالبًا ما تقوم بدمج الإطارات المرئية للفيديو بشكل موحد دون نمذجة زمنية صريحة ووعي باللغة. عندما تكون جزءًا فقط من مدخل الفيديو ذات صلة بالاستعلام اللغوي، يمكن أن يؤدي هذا الدمج الموحد للأطر إلى فقدان العلامات البصرية المهمة. رغم أن البشر غالبًا ما يجدون لحظة فيديو للتركيز عليها ويعدونها مرة أخرى للإجابة على الأسئلة، فإن تدريب محدد اللحظات الفيديوية الواعي بالاستعلام يتطلب عادةً شروحًا باهظة الثمن وتكلفة حسابية عالية. لحل هذه المشكلة، نقترح إطار العمل الذاتي المتسلسل لموقع الفيديو والإجابة (SeViLA)، وهو إطار جديد يستخدم نموذج صورة-لغة واحد (BLIP-2) للتعامل مع كل من تحديد الإطارات الرئيسية الزمنية والإجابة على الأسئلة في الفيديوهات. يتكون إطار SeViLA من وحدتين: موقع ومجيب، حيث يتم ضبط كلاهما بشكل فعال من BLIP-2. نقترح طريقين لربط هاتين الوحدتين لأجل الاستدلال المتتابع والتحسين الذاتي. أولاً، في السلسلة الأمامية، يجد الموقع عدة إطارات رئيسية واعية باللغة داخل الفيديو، والتي يستخدمها المجيب للتنبؤ بالإجابة. ثانياً، في السلسلة العكسية، يولد المجيب علامات زائفة لإطارات رئيسية لتحسين الموقع، مما يخفف الحاجة إلى شروح باهظة الثمن لتخصيص اللحظات الزمنية للفيديو. حقق إطار SeViLA الخاص بنا تفوقًا على العديد من النماذج الأساسية القوية في خمس مقاييس تحدي للإجابة على أسئلة الفيديو وتوقع الأحداث، وأحرز أفضل مستوى متقدم حتى الآن في كل من الإعدادات المعاد فيها التدريب (NExT-QA, STAR) وفي الإعدادات الصفرية (NExT-QA, STAR, How2QA, VLEP). كما قمنا أيضًا بتحليل تأثير الموقع، مقارنة الموقع بنماذج التحديد الزمني الأخرى، إعادة التدريب والتحسين الذاتي للموقع، وتغيير عدد الإطارات الرئيسية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp