منذ 8 أشهر

الملخص

أظهرت الدراسات الحديثة نتائج واعدة في استخدام النماذج المسبقة التدريب الكبيرة للصورة واللغة في الإجابة على أسئلة الفيديو. رغم أن هذه النماذج الصورة-اللغة يمكنها تحسين تعلم تمثيل النماذج الفيديو-اللغة بكفاءة، إلا أنها غالبًا ما تقوم بدمج الإطارات المرئية للفيديو بشكل موحد دون نمذجة زمنية صريحة ووعي باللغة. عندما تكون جزءًا فقط من مدخل الفيديو ذات صلة بالاستعلام اللغوي، يمكن أن يؤدي هذا الدمج الموحد للأطر إلى فقدان العلامات البصرية المهمة. رغم أن البشر غالبًا ما يجدون لحظة فيديو للتركيز عليها ويعدونها مرة أخرى للإجابة على الأسئلة، فإن تدريب محدد اللحظات الفيديوية الواعي بالاستعلام يتطلب عادةً شروحًا باهظة الثمن وتكلفة حسابية عالية. لحل هذه المشكلة، نقترح إطار العمل الذاتي المتسلسل لموقع الفيديو والإجابة (SeViLA)، وهو إطار جديد يستخدم نموذج صورة-لغة واحد (BLIP-2) للتعامل مع كل من تحديد الإطارات الرئيسية الزمنية والإجابة على الأسئلة في الفيديوهات. يتكون إطار SeViLA من وحدتين: موقع ومجيب، حيث يتم ضبط كلاهما بشكل فعال من BLIP-2. نقترح طريقين لربط هاتين الوحدتين لأجل الاستدلال المتتابع والتحسين الذاتي. أولاً، في السلسلة الأمامية، يجد الموقع عدة إطارات رئيسية واعية باللغة داخل الفيديو، والتي يستخدمها المجيب للتنبؤ بالإجابة. ثانياً، في السلسلة العكسية، يولد المجيب علامات زائفة لإطارات رئيسية لتحسين الموقع، مما يخفف الحاجة إلى شروح باهظة الثمن لتخصيص اللحظات الزمنية للفيديو. حقق إطار SeViLA الخاص بنا تفوقًا على العديد من النماذج الأساسية القوية في خمس مقاييس تحدي للإجابة على أسئلة الفيديو وتوقع الأحداث، وأحرز أفضل مستوى متقدم حتى الآن في كل من الإعدادات المعاد فيها التدريب (NExT-QA, STAR) وفي الإعدادات الصفرية (NExT-QA, STAR, How2QA, VLEP). كما قمنا أيضًا بتحليل تأثير الموقع، مقارنة الموقع بنماذج التحديد الزمني الأخرى، إعادة التدريب والتحسين الذاتي للموقع، وتغيير عدد الإطارات الرئيسية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نموذج الصورة-اللغة الذاتي الارتباط لتحديد موقع الفيديو وسؤال الإجابة

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نموذج الصورة-اللغة الذاتي الارتباط لتحديد موقع الفيديو وسؤال الإجابة

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نموذج الصورة-اللغة الذاتي الارتباط لتحديد موقع الفيديو وسؤال الإجابة

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters