HyperAIHyperAI
منذ 2 أشهر

CSTA: الانتباه المكاني-الزماني المستند إلى CNN لملخص الفيديو

Jaewon Son; Jaehun Park; Kwangsu Kim
CSTA: الانتباه المكاني-الزماني المستند إلى CNN لملخص الفيديو
الملخص

الملخص الفيديو يهدف إلى إنشاء تمثيل موجز للفيديو، يلتقط محتواه الأساسي واللحظات الرئيسية مع تقليل طوله الإجمالي. رغم استخدام العديد من الطرق آليات الانتباه للتعامل مع الارتباطات طويلة المدى، إلا أنها غالباً ما تفشل في التقاط الأهمية البصرية المتأصلة في الإطارات. لمعالجة هذه القصور، نقترح طريقة انتباه زماني-مكاني تعتمد على الشبكات العصبية التلافيفية (CSTA) التي تقوم بتجميع كل خاصية من خصائص الإطارات من فيديو واحد لتشكيل تمثيلات إطارات تشبه الصور وتطبيق شبكات CNN ثنائية الأبعاد على هذه خصائص الإطارات. تعتمد منهجيتنا على الشبكات العصبية التلافيفية لفهم العلاقات بين الإطارات وفي داخلها، واكتشاف الصفات الحاسمة في الفيديوهات بفضل قدرتها على تعلم المواقع المطلقة داخل الصور. بخلاف الأعمال السابقة التي تضحي بالكفاءة من خلال تصميم وحدات إضافية للتركيز على الأهمية المكانية، فإن CSTA تتطلب أدنى حمل حسابي لأنها تستعمل CNN كنافذة متحركة. أظهرت التجارب الواسعة على قاعدتين رئيسيتين للبيانات (SumMe وTVSum) أن النهج المقترح لدينا يحقق أداءً عالمياً رائداً بمعدل عمليات أقل (MACs) مقارنة بالطرق السابقة. يمكن الوصول إلى الكود في https://github.com/thswodnjs3/CSTA.

CSTA: الانتباه المكاني-الزماني المستند إلى CNN لملخص الفيديو | أحدث الأوراق البحثية | HyperAI