HyperAIHyperAI

Command Palette

Search for a command to run...

CSTA: الانتباه المكاني-الزماني المستند إلى CNN لملخص الفيديو

Jaewon Son Jaehun Park Kwangsu Kim*

الملخص

الملخص الفيديو يهدف إلى إنشاء تمثيل موجز للفيديو، يلتقط محتواه الأساسي واللحظات الرئيسية مع تقليل طوله الإجمالي. رغم استخدام العديد من الطرق آليات الانتباه للتعامل مع الارتباطات طويلة المدى، إلا أنها غالباً ما تفشل في التقاط الأهمية البصرية المتأصلة في الإطارات. لمعالجة هذه القصور، نقترح طريقة انتباه زماني-مكاني تعتمد على الشبكات العصبية التلافيفية (CSTA) التي تقوم بتجميع كل خاصية من خصائص الإطارات من فيديو واحد لتشكيل تمثيلات إطارات تشبه الصور وتطبيق شبكات CNN ثنائية الأبعاد على هذه خصائص الإطارات. تعتمد منهجيتنا على الشبكات العصبية التلافيفية لفهم العلاقات بين الإطارات وفي داخلها، واكتشاف الصفات الحاسمة في الفيديوهات بفضل قدرتها على تعلم المواقع المطلقة داخل الصور. بخلاف الأعمال السابقة التي تضحي بالكفاءة من خلال تصميم وحدات إضافية للتركيز على الأهمية المكانية، فإن CSTA تتطلب أدنى حمل حسابي لأنها تستعمل CNN كنافذة متحركة. أظهرت التجارب الواسعة على قاعدتين رئيسيتين للبيانات (SumMe وTVSum) أن النهج المقترح لدينا يحقق أداءً عالمياً رائداً بمعدل عمليات أقل (MACs) مقارنة بالطرق السابقة. يمكن الوصول إلى الكود في https://github.com/thswodnjs3/CSTA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp