HyperAIHyperAI

Command Palette

Search for a command to run...

الكتابة التوصيفية للفيديو الكثيف من الطرف إلى الطرف كتوليد تسلسلي

Wanrong Zhu Bo Pang Ashish V. Thapliyal William Yang Wang Radu Soricut

الملخص

يهدف التوصيف الكثيف للفيديوهات إلى تحديد الأحداث ذات الاهتمام في الفيديو المدخل، وإنشاء عناوين وصفية لكل حدث. عادةً ما تتبع النماذج السابقة عملية توليد ثنائية المرحلة، حيث تُقترح أولًا قطعة زمنية لكل حدث، ثم تُولَّد عنوان وصفي لكل قطعة مُحددة. وعلى الرغم من التطورات الحديثة في التدريب المسبق للتوليد التسلسلي على نطاق واسع، والتي حققت نجاحًا كبيرًا في توحيد صياغة المهام لعدد كبير من المهام المختلفة، إلا أن المهام الأكثر تعقيدًا مثل التوصيف الكثيف للفيديوهات لم تتمكن حتى الآن من الاستفادة الكاملة من هذا النموذج القوي. في هذا العمل، نُظهر كيف يمكن نمذجة المهمتين الفرعيتين للتوصيف الكثيف للفيديوهات معًا كمهام توليد تسلسلي واحدة، مع التنبؤ بالتوازي بالأحداث والوصف المقابل لها. أظهرت التجارب على مجموعتي بيانات YouCook2 وViTT نتائج واعدة، وتُشير إلى إمكانية تدريب مهام معقدة مثل التوصيف الكثيف من البداية إلى النهاية ضمن نماذج مُدرّبة مسبقًا على نطاق واسع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الكتابة التوصيفية للفيديو الكثيف من الطرف إلى الطرف كتوليد تسلسلي | مستندات | HyperAI