HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق التوليدي من الطرف إلى الطرف لوصف الفيديو متعدد الوسائط

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

الملخص

تُعاني الإطارات الحديثة للتدريب المسبق على الفيديو واللغة من عدم القدرة على إنتاج جمل. نقدّم إطارًا جديدًا للتدريب المسبق المتعدد الوسائط على الفيديو (MV-GPT)، وهو إطار تدريب مسبق لتعلم من الفيديوهات غير المُوسومة، ويمكن استخدامه بكفاءة في المهام الإبداعية مثل وصف الفيديو متعدد الوسائط. على عكس الإطارات الحديثة للتدريب المسبق على الفيديو واللغة، يُدرّس إطارنا بشكل متزامن كلًا من مشغّل الفيديو متعدد الوسائط ومشغّل الجملة. وللتغلب على نقص التسميات النصية في الفيديوهات غير الموسومة، نستفيد من النصوص المستقبلية كمصدر نصي إضافي، ونُقدّم هدفًا ثنائي الاتجاه للإعادة الإنشائية: نُولِّد النصوص المستقبلية بناءً على السياق المتعدد الوسائط الحالي، ونُولِّد أيضًا النص الحالي بناءً على الملاحظات المستقبلية. وباستخدام هذا الهدف، نُدرّب نموذجًا مُشغّلًا-مُخرِجًا بشكل مباشر من البداية إلى النهاية، بحيث يُنتج وصفًا من صور خام وصوت مُحوّل إلى نص مباشرة. وحققت نماذجنا أداءً متميزًا على مستوى الحد الأقصى في وصف الفيديو متعدد الوسائط على أربع معايير قياسية، وكذلك في مهام فهم الفيديو الأخرى مثل الاستفسار عن الفيديو (VideoQA)، واسترجاع الفيديو، وتصنيف الحركات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp