ProPainter: تحسين التمديد والمحول لإنقاص الفيديو

تُعد آلية الانتشار القائمة على التدفق (Flow-based propagation) ومحول الزمن والمكان (spatiotemporal Transformer) مادتين رئيسيتين في مجال استكمال الفيديو (Video Inpainting). وعلى الرغم من الفعالية التي تتميز بها هذه المكونات، إلا أنها ما زالت تعاني من بعض القيود التي تؤثر على أدائها. ففي الطرق السابقة القائمة على الانتشار، تُنفَّذ العمليات بشكل منفصل إما في مجال الصورة أو في مجال الميزات (feature domain). وقد يؤدي الانتشار العالمي للصورة منفصلًا عن التعلم إلى عدم التوافق المكاني بسبب عدم دقة تدفق الصورة (optical flow). علاوةً على ذلك، تحدّ من القيود المتعلقة بالذاكرة أو الحوسبة من نطاق الزمن الممكن للانتشار في الميزات، كما تمنع استكشاف معلومات التقابل من الإطارات البعيدة في محولات الفيديو. ولحل هذه المشكلات، نقترح إطارًا مُحسَّنًا يُسمَّى ProPainter، يشمل انتشارًا مُحسَّنًا (ProPagation) ومحولًا فعّالًا. بشكل خاص، نقدّم آلية انتشار مزدوجة المجال (dual-domain propagation)، التي تدمج مزايا تشويه الصورة (image warping) وتشويه الميزات (feature warping)، وتعمل على استغلال التقابلات العالمية بشكل موثوق. كما نقترح محولًا نادرًا للفيديو مُوجَّهًا بالقناع (mask-guided sparse video Transformer)، الذي يحقق كفاءة عالية من خلال استبعاد الرموز غير الضرورية والمتكررة. وبفضل هذه المكونات، يتفوّق ProPainter على الأطر السابقة بفارق كبير يبلغ 1.46 ديسيبل في معيار PSNR، مع الحفاظ على كفاءة متميزة.