FuseFormer: دمج المعلومات الدقيقة في نماذج التحويل لملء الفيديو

تم استكشاف معمارية Transformer، وهي معمارية قوية ومُرنة لنمذجة العلاقات على المدى الطويل، بشكل واسع في مهام الرؤية. ومع ذلك، عند استخدامها في تعبئة الفيديو (Video Inpainting) التي تتطلب تمثيلًا دقيقًا جدًا، لا تزال الطرق الحالية تعاني من إنتاج حواف ضبابية في التفاصيل بسبب تقسيم الباث الصعب (Hard Patch Splitting). هنا نهدف إلى حل هذه المشكلة من خلال اقتراح FuseFormer، وهو نموذج Transformer مصمم خصيصًا لتعبئة الفيديو عبر دمج الخصائص بدقة عالية بناءً على عمليات تقسيم ناعمة (Soft Split) وتركيب ناعم (Soft Composition) جديدة. تقوم عملية التقسيم الناعمة بتقسيم خريطة الخصائص إلى العديد من الباثات بفواصل تداخل معينة. بالمقابل، تعمل عملية التركيب الناعمة على ربط الباثات المختلفة في خريطة خصائص كاملة حيث يتم جمع البكسلات في المناطق المتداخلة. يتم استخدام هذين الوحدتين لأول مرة في عملية تحويل العناصر إلى رموز (Tokenization) قبل طبقات Transformer وفي عملية إعادة تحويل الرموز إلى عناصر (De-tokenization) بعد طبقات Transformer، مما يوفر تعيينًا فعالًا بين الرموز والخصائص. وبالتالي، يتم تمكين التفاعل المعلوماتي على مستوى الباث الفرعي للسماح بنشر أكثر فعالية للخصائص بين الباثات المجاورة، مما يؤدي إلى إنتاج محتوى حيوي للمناطق الفارغة في الفيديوهات. بالإضافة إلى ذلك، في FuseFormer، نقوم بإدراج عمليتي التركيب الناعم والتقسيم الناعم بعناية في الشبكة الأمامية المغذية (Feed-Forward Network)، مما يمنح الطبقات الخطية ذات البعد الواحد القدرة على نمذجة الهيكل ثنائي الأبعاد. كما يتم تعزيز قدرة دمج الخصائص على مستوى الباث الفرعي بشكل أكبر. في التقييمات الكمية والنوعية على حد سواء، يتفوق النموذج المقترح FuseFormer على أفضل الأساليب الحالية. كما أجرينا تحليلًا مفصلًا لفحص تفوقه.