HyperAIHyperAI

Command Palette

Search for a command to run...

استغلال التوجيه البصري التدفقي للتصوير بالفيديو المستند إلى المحولات

Kaidong Zhang Jialun Peng Jingjing Fu Dong Liu

الملخص

تم استخدام نماذج الـ Transformers بشكل واسع في معالجة الفيديو بفضل آلية الانتباه الذاتي متعدد الرؤوس (MHSA). ومع ذلك، تواجه آلية MHSA صعوبة جوهرية في مهمة استكمال الفيديو (video inpainting)، نظرًا لتدهور السمات المرتبطة بالمناطق التالفة، مما يؤدي إلى توليد انتباه ذاتي غير دقيق. ويُعرف هذا المشكل باسم "تدهور الاستفسار" (query degradation)، ويمكن تقليله من خلال إكمال تدفقات البصريات أولاً، ثم استخدام هذه التدفقات لتوجيه الانتباه الذاتي، وهو ما تم التحقق منه في عملنا السابق بتطبيق "Transformer الموجه بالتدفق البصري" (Flow-Guided Transformer - FGT). ونُكمل الآن استغلال التوجيه بالتدفق، ونُقدّم نسخة مُحسّنة تُدعى FGT++، بهدف تحقيق استكمال فيديو أكثر فعالية وكفاءة. أولاً، نصمم شبكة خفيفة الوزن لإكمال التدفقات البصرية باستخدام تجميع محلي ودالة خسارة حافة. ثانيًا، لمعالجة مشكلة تدهور الاستفسار، نُقدّم وحدة تكامل السمات الموجهة بالتدفق، التي تُعزز السمات باستخدام الفرق الحركي، إلى جانب وحدة تفاعل السمات الموجهة بالتدفق، التي تُشَكِّل السمات وفقًا للتدفقات البصرية. ثالثًا، نُفكّك نموذج الـ Transformer على المستويين الزمني والزماني، حيث تُستخدم التدفقات لاختيار الرموز (tokens) عبر آلية MHSA متعددة التغيرات الزمنية، ويتم دمج الرموز العالمية مع الرموز المحلية داخل النافذة من خلال آلية MHSA ذات منظورين. وقد أُجريت تجارب تقييمية على FGT++، وأظهرت تفوقه على الشبكات الحالية في استكمال الفيديو من حيث الجودة النوعية والكمية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استغلال التوجيه البصري التدفقي للتصوير بالفيديو المستند إلى المحولات | مستندات | HyperAI