HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة إنتاج النص المرتبط بالفيديو شبه المعلمي

Sungdong Kim Jin-Hwa Kim Jiyoung Lee Minjoon Seo

الملخص

يجب أخذ التكلفة الحسابية بعين الاعتبار في نمذجة الفيديو واللغة بكفاءة، نظرًا لعدد كبير جدًا من إطارات الفيديو، والذي قد يكون أحيانًا غير قابل للتحقيق. قد لا تكون النهج المُعَمَّمة مثل آلية الانتباه مثالية، لأن تكلفتها الحسابية تزداد تربيعياً مع زيادة طول الفيديو. بدلًا من ذلك، اعتمدت الدراسات السابقة على استخلاص الميزات خارج الزمن (offline feature extraction) أو عينة الإطارات (frame sampling) لتمثيل الفيديو بكفاءة، مع التركيز على النمذجة عبر الوسائط في مقاطع فيديو قصيرة. في هذه الورقة، نقترح نموذجًا نصيًا مُتَّسِعًا مُوجَّهًا بالفيديو، يُدعى SeViT، وهو منظور جديد لتمديد نمذجة الفيديو واللغة على الفيديوهات الطويلة غير المُقَصَّة. ويعتبر الفيديو كمصدر بيانات خارجي، حيث يضم SeViT مُسترجعًا غير مُعَمَّم (non-parametric frame retriever) لاسترجاع عدد قليل من الإطارات ذات الصلة بالاستعلام من مصدر البيانات، ويستخدم مُولِّدًا مُعَمَّمًا (parametric generator) لدمج هذه الإطارات بشكل فعّال مع الاستعلام من خلال أساليب التكامل في مرحلة لاحقة (late fusion). تُظهر النتائج التجريبية أن طريقةنا تمتلك ميزة واضحة في الفيديوهات الأطول وفهم الفيديو السببي. علاوةً على ذلك، حقق نموذجنا أفضل أداء حاليًا على أربع مجموعات بيانات للفيديو واللغة: iVQA (+4.8)، Next-QA (+6.9)، ActivityNet-QA (+4.8) من حيث الدقة، وMSRVTT-Caption (+3.6) من حيث معيار CIDEr.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة إنتاج النص المرتبط بالفيديو شبه المعلمي | مستندات | HyperAI