HyperAIHyperAI
منذ 11 أيام

استغلال التوجيه البصري التدفقي للتصوير بالفيديو المستند إلى المحولات

Kaidong Zhang, Jialun Peng, Jingjing Fu, Dong Liu
استغلال التوجيه البصري التدفقي للتصوير بالفيديو المستند إلى المحولات
الملخص

تم استخدام نماذج الـ Transformers بشكل واسع في معالجة الفيديو بفضل آلية الانتباه الذاتي متعدد الرؤوس (MHSA). ومع ذلك، تواجه آلية MHSA صعوبة جوهرية في مهمة استكمال الفيديو (video inpainting)، نظرًا لتدهور السمات المرتبطة بالمناطق التالفة، مما يؤدي إلى توليد انتباه ذاتي غير دقيق. ويُعرف هذا المشكل باسم "تدهور الاستفسار" (query degradation)، ويمكن تقليله من خلال إكمال تدفقات البصريات أولاً، ثم استخدام هذه التدفقات لتوجيه الانتباه الذاتي، وهو ما تم التحقق منه في عملنا السابق بتطبيق "Transformer الموجه بالتدفق البصري" (Flow-Guided Transformer - FGT). ونُكمل الآن استغلال التوجيه بالتدفق، ونُقدّم نسخة مُحسّنة تُدعى FGT++، بهدف تحقيق استكمال فيديو أكثر فعالية وكفاءة. أولاً، نصمم شبكة خفيفة الوزن لإكمال التدفقات البصرية باستخدام تجميع محلي ودالة خسارة حافة. ثانيًا، لمعالجة مشكلة تدهور الاستفسار، نُقدّم وحدة تكامل السمات الموجهة بالتدفق، التي تُعزز السمات باستخدام الفرق الحركي، إلى جانب وحدة تفاعل السمات الموجهة بالتدفق، التي تُشَكِّل السمات وفقًا للتدفقات البصرية. ثالثًا، نُفكّك نموذج الـ Transformer على المستويين الزمني والزماني، حيث تُستخدم التدفقات لاختيار الرموز (tokens) عبر آلية MHSA متعددة التغيرات الزمنية، ويتم دمج الرموز العالمية مع الرموز المحلية داخل النافذة من خلال آلية MHSA ذات منظورين. وقد أُجريت تجارب تقييمية على FGT++، وأظهرت تفوقه على الشبكات الحالية في استكمال الفيديو من حيث الجودة النوعية والكمية.

استغلال التوجيه البصري التدفقي للتصوير بالفيديو المستند إلى المحولات | أحدث الأوراق البحثية | HyperAI