HyperAIHyperAI
منذ 16 أيام

Transformer مُقنَّع يُراعي النقص لاستكمال الفيديو

Yongsheng Yu, Heng Fan, Libo Zhang
Transformer مُقنَّع يُراعي النقص لاستكمال الفيديو
الملخص

أحرزت الطرق الحديثة لاستكمال الفيديو تقدماً ملحوظاً من خلال استخدام إرشادات صريحة، مثل تدفق البكسل (optical flow)، لنقل بكسلات بين الإطارات المختلفة. ومع ذلك، توجد حالات لا تتوفر فيها تكرار الإطارات المُقنعة (masked video) عبر الزمن، مما يؤدي إلى نقص في الجودة. وفي مثل هذه الحالات، بدلًا من استعارة بكسلات من إطارات أخرى، يتحول تركيز النموذج نحو معالجة المشكلة العكسية (inverse problem). في هذه الورقة، نقدم إطاراً لاستكمال متعدد الوسائط يُسمى "Transformer المقنع المُدرك للنقص" (Deficiency-aware Masked Transformer، DMT)، الذي يتميز بثلاثة مزايا رئيسية. أولاً، نُدرّب مسبقاً نموذجاً لاستكمال الصور (DMT_img) كمُقدّم (prior) لاستخلاص معرفة نموذج الفيديو (DMT_vid)، مما يعزز قدرة النموذج على توليد محتوى مُفترض في الحالات التي تعاني من نقص. ثانيًا، يُدمج في النموذج وحدة الانتباه الذاتي (self-attention module) التي تختار بذكاء تضمين الرموز الفضائية الزمنية (spatiotemporal tokens)، مما يسرّع عملية الاستنتاج ويقلل من الإشارات الضوضائية. ثالثًا، تم دمج مُحسّن مجال الاستقبال (Receptive Field Contextualizer) بسيط لكنه فعّال في DMT، مما يعزز الأداء بشكل إضافي. أظهرت التجارب الواسعة التي أُجريت على مجموعتي بيانات YouTube-VOS وDAVIS أن DMT_vid يتفوق بشكل كبير على الحلول السابقة. يمكن العثور على الكود والفيديوهات التوضيحية على: github.com/yeates/DMT.

Transformer مُقنَّع يُراعي النقص لاستكمال الفيديو | أحدث الأوراق البحثية | HyperAI