HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق متعدد الوسائط للتعليق الكثيف على الفيديو

Gabriel Huang Bo Pang Zhenhai Zhu Clara Rivera Radu Soricut

الملخص

يتم التعلم الفعلي للمهارات المحددة، مثل الطبخ وصيانة السيارات والإصلاحات المنزلية، بشكل متزايد من خلال مقاطع الفيديو التعليمية. يُعرف أن تجربة المستخدم مع هذه المقاطع تتحسن بفضل المعلومات الوصفية (meta-information)، مثل التسميات الزمنية للخطوات الرئيسية. ويعتبر إنشاء هذه التسميات تلقائيًا أمرًا صعبًا، ونقدم هنا إسهامين ذوي صلة. أولاً، نقوم ببناء وإطلاق مجموعة بيانات جديدة لوصف الفيديو بكثافة، تُسمى "تسميات زمنية للفيديو" (Video Timeline Tags - ViTT)، والتي تتضمن مجموعة متنوعة من مقاطع الفيديو التعليمية مع تسميات زمنية. ثانيًا، نستكشف عدة استراتيجيات لتدريب مسبق متعددة الوسائط على التسلسل إلى التسلسل، تُستفيد من مجموعات بيانات كبيرة غير مُعلَّمة تتضمن مقاطع فيديو ونصوص مشابهة للعناوين. نقوم بتدريب نماذج وصف الفيديو الكثيف مسبقًا ثم تحسينها لاحقًا باستخدام كل من YouCook2 وViTT. ونُظهر أن هذه النماذج تُظهر قدرة تعميم جيدة وثباتًا عالٍ على مجموعة واسعة من مقاطع الفيديو التعليمية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp