HyperAIHyperAI
منذ 17 أيام

Transformer متعدد التباعد الموجه بالتدفق لتفتيت الضبابية في الفيديو

Jing Lin, Yuanhao Cai, Xiaowan Hu, Haoqian Wang, Youliang Yan, Xueyi Zou, Henghui Ding, Yulun Zhang, Radu Timofte, Luc Van Gool
Transformer متعدد التباعد الموجه بالتدفق لتفتيت الضبابية في الفيديو
الملخص

استغلال القطع المشابهة والSharper في الجيران الفضائيين-الزمنيين يُعد أمرًا بالغ الأهمية في تفريغ الفيديو من الضبابية. ومع ذلك، تُظهر الطرق القائمة على الشبكات العصبية التلافيفية (CNN) قيودًا في التقاط الاعتماديات الطويلة المدى ونمذجة التشابه الذاتي غير المحلي. في هذا البحث، نقترح إطارًا جديدًا يُسمى "مُحول نافذة متباعدة موجه بالتدفق" (Flow-Guided Sparse Transformer - FGST) لمعالجة تفريغ الفيديو من الضبابية. في إطار FGST، نُعدّل وحدة انتباه ذاتي تُسمى "الانتباه الذاتي متعدد الرؤوس القائم على نافذة متباعدة موجهة بالتدفق" (Flow-Guided Sparse Window-based Multi-head Self-Attention - FGSW-MSA). لكل عنصر "query" في الإطار المرئي الضبابي المرجعي، تستفيد FGSW-MSA من توجيه التدفق البصري المقدر لاستخلاص عناصر "key" متباعدة فضائيًا ولكنها ذات صلة عالية، وتتوافق مع نفس القطعة المشهدية في الإطارات المجاورة. بالإضافة إلى ذلك، نقدّم آلية "تضمين متكرر" (Recurrent Embedding - RE) لنقل المعلومات من الإطارات السابقة وتعزيز الاعتماديات الزمنية الطويلة المدى. أظهرت التجارب الشاملة أن النموذج المُقترح FGST يتفوق على أحدث الطرق (SOTA) على كلا مجموعتي بيانات DVD وGOPRO، بل ويُنتج نتائج أكثر جمالًا بصريًا في تفريغ الفيديو الحقيقي. تم إتاحة الكود والنماذج المدربة مسبقًا للجمهور عبر الرابط التالي: https://github.com/linjing7/VR-Baseline

Transformer متعدد التباعد الموجه بالتدفق لتفتيت الضبابية في الفيديو | أحدث الأوراق البحثية | HyperAI