CSTA: الانتباه المكاني-الزماني المستند إلى CNN لملخص الفيديو

الملخص الفيديو يهدف إلى إنشاء تمثيل موجز للفيديو، يلتقط محتواه الأساسي واللحظات الرئيسية مع تقليل طوله الإجمالي. رغم استخدام العديد من الطرق آليات الانتباه للتعامل مع الارتباطات طويلة المدى، إلا أنها غالباً ما تفشل في التقاط الأهمية البصرية المتأصلة في الإطارات. لمعالجة هذه القصور، نقترح طريقة انتباه زماني-مكاني تعتمد على الشبكات العصبية التلافيفية (CSTA) التي تقوم بتجميع كل خاصية من خصائص الإطارات من فيديو واحد لتشكيل تمثيلات إطارات تشبه الصور وتطبيق شبكات CNN ثنائية الأبعاد على هذه خصائص الإطارات. تعتمد منهجيتنا على الشبكات العصبية التلافيفية لفهم العلاقات بين الإطارات وفي داخلها، واكتشاف الصفات الحاسمة في الفيديوهات بفضل قدرتها على تعلم المواقع المطلقة داخل الصور. بخلاف الأعمال السابقة التي تضحي بالكفاءة من خلال تصميم وحدات إضافية للتركيز على الأهمية المكانية، فإن CSTA تتطلب أدنى حمل حسابي لأنها تستعمل CNN كنافذة متحركة. أظهرت التجارب الواسعة على قاعدتين رئيسيتين للبيانات (SumMe وTVSum) أن النهج المقترح لدينا يحقق أداءً عالمياً رائداً بمعدل عمليات أقل (MACs) مقارنة بالطرق السابقة. يمكن الوصول إلى الكود في https://github.com/thswodnjs3/CSTA.