الإدراك عالي الدقة بين الإطارات باستخدام التوسع القائم على الرقع

رغم التقدم الحاصل مؤخرًا، لا تزال طرق الإدخال الإطاري الحالية تواجه صعوبات في معالجة المدخلات ذات الدقة العالية جدًا وفي التعامل مع الحالات الصعبة مثل النصوص المتكررة، الأشياء الرقيقة، والحركة الكبيرة. لمعالجة هذه القضايا، نقدم نموذج تفتيت بكسل متدرج قائم على الباث (patch-based cascaded pixel diffusion model) للإدخال الإطاري ذي الدقة العالية، المعروف بـ HiFI، والذي يتفوق في هذه السيناريوهات مع تحقيق أداء تنافسي على مقاييس المعايير القياسية.الطرق المتدرجة التي تولد سلسلة من الصور بدءًا من الدقة المنخفضة إلى الدقة العالية يمكن أن تسهم بشكل كبير في التعامل مع الحركة الكبيرة أو المعقدة التي تتطلب السياق العالمي لحل خشن والسياق التفصيلي لإخراج ذو دقة عالية. ومع ذلك، على عكس الأعمال السابقة حول نماذج التفتيت المتدرجة التي تقوم بالتفتيت على دقات متزايدة، نحن نستخدم نموذجًا واحدًا يقوم دائمًا بالتفتيت بنفس الدقة ويزيد حجم الصورة عن طريق معالجة باثات (patches) المدخلات والحل السابق. خلال مرحلة الاستدلال، يقلل هذا بشكل كبير من استخدام الذاكرة ويسمح لنموذج واحد بحل كل من مهام الإدخال الإطاري (مهمة النموذج الأساسي) والتكبير المكاني، مما يوفر أيضًا تكلفة التدريب. يتميز HiFI بأدائه الممتاز في الصور ذات الدقة العالية والنصوص المتكررة المعقدة التي تتطلب السياق العالمي، حيث حقق أداءً مماثلاً أو رائداً في مجاله على مجموعة متنوعة من المقاييس (Vimeo, Xiph, X-Test, و SEPE-8K). كما قدمنا مجموعة بيانات جديدة تُعرف بـ LaMoR وتركز على الحالات الصعبة بشكل خاص، حيث أظهر HiFI تفوقًا واضحًا على النماذج الأساسية الأخرى. يرجى زيارة صفحة مشروعنا للمزيد من نتائج الفيديو: https://hifi-diffusion.github.io