HyperAIHyperAI
منذ 9 أيام

إعادة إنتاج النص المرتبط بالفيديو شبه المعلمي

Sungdong Kim, Jin-Hwa Kim, Jiyoung Lee, Minjoon Seo
إعادة إنتاج النص المرتبط بالفيديو شبه المعلمي
الملخص

يجب أخذ التكلفة الحسابية بعين الاعتبار في نمذجة الفيديو واللغة بكفاءة، نظرًا لعدد كبير جدًا من إطارات الفيديو، والذي قد يكون أحيانًا غير قابل للتحقيق. قد لا تكون النهج المُعَمَّمة مثل آلية الانتباه مثالية، لأن تكلفتها الحسابية تزداد تربيعياً مع زيادة طول الفيديو. بدلًا من ذلك، اعتمدت الدراسات السابقة على استخلاص الميزات خارج الزمن (offline feature extraction) أو عينة الإطارات (frame sampling) لتمثيل الفيديو بكفاءة، مع التركيز على النمذجة عبر الوسائط في مقاطع فيديو قصيرة. في هذه الورقة، نقترح نموذجًا نصيًا مُتَّسِعًا مُوجَّهًا بالفيديو، يُدعى SeViT، وهو منظور جديد لتمديد نمذجة الفيديو واللغة على الفيديوهات الطويلة غير المُقَصَّة. ويعتبر الفيديو كمصدر بيانات خارجي، حيث يضم SeViT مُسترجعًا غير مُعَمَّم (non-parametric frame retriever) لاسترجاع عدد قليل من الإطارات ذات الصلة بالاستعلام من مصدر البيانات، ويستخدم مُولِّدًا مُعَمَّمًا (parametric generator) لدمج هذه الإطارات بشكل فعّال مع الاستعلام من خلال أساليب التكامل في مرحلة لاحقة (late fusion). تُظهر النتائج التجريبية أن طريقةنا تمتلك ميزة واضحة في الفيديوهات الأطول وفهم الفيديو السببي. علاوةً على ذلك، حقق نموذجنا أفضل أداء حاليًا على أربع مجموعات بيانات للفيديو واللغة: iVQA (+4.8)، Next-QA (+6.9)، ActivityNet-QA (+4.8) من حيث الدقة، وMSRVTT-Caption (+3.6) من حيث معيار CIDEr.

إعادة إنتاج النص المرتبط بالفيديو شبه المعلمي | أحدث الأوراق البحثية | HyperAI