دورة-SUM: شبكات LSTM المعادية المتسقة دوريًا لاختصار الفيديو بدون إشراف

في هذا البحث، نقدم نموذجًا جديدًا لاختصار الفيديو دون إشراف يعتمد على عدم الحاجة إلى التسمية اليدوية. النموذج المقترح، المسمى Cycle-SUM، يستخدم هندسة LSTM المعادية ذات التوافق الدائري الجديدة التي يمكنها تحسين فعالية الحفاظ على المعلومات وتكثيف ملخص الفيديو. يتكون النموذج من منتقي الإطارات ومقيم يستند إلى التعلم بالتوافق الدائري. المنتقي هو شبكة LSTM ثنائية الاتجاه تتعلم تمثيلات الفيديو التي تضم العلاقات طويلة المدى بين إطارات الفيديو. أما المقيم فيحدد مقياس حفظ المعلومات القابل للتعلم بين الفيديو الأصلي وملخص الفيديو ويُشرف على المنتقي لاكتشاف الإطارات الأكثر إعلامية لتكوين ملخص الفيديو. بشكل خاص، يتكون المقيم من شبكتين معاديتين جينيراتيفيتين (GANs)، حيث يتم تعلم الشبكة الأمامية GAN لإعادة بناء الفيديو الأصلي من ملخص الفيديو بينما تقوم الشبكة الخلفية GAN بتعلم عكس العملية. يتم اعتماد توافق النواتج لهذه العملية التعليمية الدائرية كمقياس لحفظ المعلومات في اختصار الفيديو. نوضح العلاقة الوثيقة بين تعظيم المعلومات المتبادلة وهذه العملية التعليمية الدائرية. تثبت التجارب على قاعدتي بيانات مقاييس اختصار الفيديو أن أداء نموذج Cycle-SUM يتفوق على أفضل الأداء السابق وأفضل من النماذج الأساسية السابقة.