استعادة الصور مع نماذج التوسع المعتمدة على النص

يهدف استعادة الصور إلى استرجاع الصور المتدهورة. ومع ذلك، فإن طرق الاستعادة المستندة على الانتشار (diffusion) الحالية، رغم نجاحها الكبير في استعادة الصور الطبيعية، غالباً ما تواجه صعوبات في إعادة بناء المناطق النصية بدقة في الصور المتدهورة. تنتج هذه الطرق غالبًا أنماطًا شبيهة بالنصوص معقولة ولكن غير صحيحة، وهي الظاهرة التي نشير إليها بـ "هلوسة النص والصورة" (text-image hallucination). في هذا البحث، نقدم "استعادة الصور الواعية للنص" (Text-Aware Image Restoration - TAIR)، وهي مهمة استعادة جديدة تتطلب استرجاع المحتويات البصرية والدقة النصية بشكل متزامن. لمعالجة هذه المهمة، نقدم SA-Text، وهو معيار كبير الحجم يحتوي على 100 ألف صورة مشهد عالية الجودة تم توثيقها بكثافة بحالات نصية متنوعة ومعقدة. بالإضافة إلى ذلك، نقترح إطار عمل متعدد المهام يُدعى TeReDiff، والذي يدمج الخصائص الداخلية من نماذج الانتشار في وحدة كشف النص (text-spotting module)، مما يتيح لكلا المكونين الاستفادة من التدريب المشترك. هذا يسمح باستخراج تمثيلات نصية غنية يتم استخدامها كمثيرات (prompts) في خطوات التنقية اللاحقة. تظهر التجارب الواسعة أن منهجيتنا تتفوق باستمرار على أفضل الطرق الحالية في مجال الاستعادة، حيث حققت مكاسب كبيرة في دقة التعرف على النصوص. راجعوا صفحة مشروعنا: https://cvlab-kaist.github.io/TAIR/