منذ 6 أشهر

الملخص

تم تصميم معظم نماذج وصف الفيديو لمعالجة مقاطع فيديو قصيرة تستمر لبضع ثوانٍ وإخراج نصوص تصف المفاهيم البصرية من المستوى المنخفض (مثل الكائنات، المشاهد، أو الإجراءات الأساسية). ومع ذلك، فإن معظم مقاطع الفيديو في العالم الحقيقي تمتد لدقائق أو ساعات، وتمتلك بنية هرمية معقدة تمتد عبر مختلف مستويات الدقة الزمنية. نقترح نموذج "Video ReCap"، وهو نموذج وصف فيديو تكراري قادر على معالجة مدخلات فيديو بطولات متفاوتة بشكل كبير (من ثانية واحدة إلى ساعتين) وإنتاج وصف للفيديو على مستويات هرمية متعددة. تعتمد البنية التكرارية بين الفيديو واللغة على التآزر بين مختلف مستويات الهرم في الفيديو، ويمكنها معالجة مقاطع فيديو طويلة تمتد لساعات بكفاءة. نستخدم خطة تدريب تُعرف بـ "التعلم التدريجي (curriculum learning)" لتعلم البنية الهرمية للفيديو، بدءًا من وصف مقاطع الفيديو التي تصف الإجراءات الأساسية، ثم الانتقال إلى وصف المقاطع (segments)، وختامًا إنتاج ملخصات لمقاطع فيديو طويلة تمتد لساعات. علاوةً على ذلك، نقدّم مجموعة بيانات جديدة تُسمى Ego4D-HCap، التي تم إنشاؤها عبر توسعة مجموعة بيانات Ego4D بـ 8,267 ملخصًا يدويًا لمقاطع فيديو طويلة المدى. يمكن لنموذجنا التكراري إنشاء وصف مرن على مستويات هرمية مختلفة، كما أنه مفيد في مهام فهم الفيديو المعقدة الأخرى، مثل إجابة الأسئلة على الفيديو (VideoQA) ضمن مجموعة بيانات EgoSchema. تتوفر البيانات والكود والنماذج على الرابط التالي: https://sites.google.com/view/vidrecap

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فيديو ري كاب: وصف متكرر لفيديوهات تدوم ساعة

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فيديو ري كاب: وصف متكرر لفيديوهات تدوم ساعة

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فيديو ري كاب: وصف متكرر لفيديوهات تدوم ساعة

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters