HyperAIHyperAI
منذ 17 أيام

استخراج الحركة والملامح من خلال الانتباه بين الإطارات لتحسين استيفاء إطارات الفيديو

Guozhen Zhang, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, Limin Wang
استخراج الحركة والملامح من خلال الانتباه بين الإطارات لتحسين استيفاء إطارات الفيديو
الملخص

إن استخراج المعلومات الحركية والبصرية بين الإطارات بشكل فعّال أمر بالغ الأهمية في تداخل إطارات الفيديو (VFI). فقد اعتمدت الدراسات السابقة إما على استخراج النوعين من المعلومات بطريقة مختلطة، أو على تصميم وحدات منفصلة لكل نوع من المعلومات، ما يؤدي إلى غموض في التمثيل وانخفاض في الكفاءة. في هذا البحث، نقترح وحدة جديدة لاستخراج معلومات الحركة والشكل بشكل صريح من خلال عملية موحدة. وبشكل خاص، نعيد تقييم عملية المعالجة المعلوماتية في الانتباه بين الإطارات، ونعيد استخدام خريطة الانتباه الناتجة لتحسين ميزات الشكل واستخراج معلومات الحركة في آنٍ واحد. علاوةً على ذلك، يمكن دمج الوحدة المقترحة بشكل سلس في بنية هجينة تعتمد على الشبكات العصبية التلافيفية (CNN) والمحولات (Transformer)، مما يُخفّف من التعقيد الحسابي للانتباه بين الإطارات مع الحفاظ على المعلومات التفصيلية من المستوى المنخفض. تُظهر النتائج التجريبية أن أسلوبنا يحقق أداءً متفوقًا على مستوى الحالة الحالية في مختلف مجموعات البيانات، سواء في تداخل الإطارات بفترات زمنية ثابتة أو متغيرة. وفي الوقت نفسه، يتمتع أسلوبنا بحمل حسابي أخف مقارنةً بالنماذج التي تحقق أداءً مشابهًا. يمكن الوصول إلى الشفرة المصدرية والنماذج عبر الرابط: https://github.com/MCG-NJU/EMA-VFI.

استخراج الحركة والملامح من خلال الانتباه بين الإطارات لتحسين استيفاء إطارات الفيديو | أحدث الأوراق البحثية | HyperAI