HyperAIHyperAI

Command Palette

Search for a command to run...

متغير متعدد الوسائط الهرمي لملخص الفيديوهات

Bin Zhao Maoguo Gong Xuelong Li

الملخص

رغم النجاح الكبير الذي حققته ملخصات الفيديو بفضل شبكات النيورونات المتكررة (RNN)، فإن الأساليب القائمة على RNN تتجاهل الارتباطات العالمية والعلاقات متعددة الخطوات بين إطارات الفيديو، مما يحد من الأداء. يعتبر نموذج الترانسفورمر (Transformer) فعالاً في التعامل مع هذه المشكلة، ويتخطى الأساليب القائمة على RNN في عدة مهام نمذجة التسلسل مثل الترجمة الآلية، وكتابة تعليقات الفيديو، وغيرها. مستوحاة من النجاح الكبير للترانسفورمر والهيكل الطبيعي للفيديو (إطار-مشهد-فيديو)، تم تطوير ترانسفورمر هرمي لملخصات الفيديو، والذي يمكنه التقاط الارتباطات بين الإطارات والمشاهد، وإنشاء ملخص للفيديو باستخدام المعلومات المشهدية التي تشكلها المشاهد. علاوة على ذلك، نعتقد أن كلًا من المعلومات الصوتية والمعلومات البصرية ضروريان لمهمة ملخصات الفيديو. لدمج هذين النوعين من المعلومات، يتم ترميزهما في نظام ذو تيارين، وتم تطوير آلية دمج متعددة الوسائط بناءً على الترانسفورمر الهرمي. في هذا البحث، يُشار إلى الطريقة المقترحة باسم الترانسفورمر الهرمي متعدد الوسائط (HMT). عملياً، أظهرت التجارب الواسعة أن HMT يتخطى معظم الأساليب التقليدية والأساليب القائمة على RNN والأساليب القائمة على الانتباه في ملخصات الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp