HyperAI

استعادة الصور مع نماذج التوسع المعتمدة على النص

Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
تاريخ النشر: 6/15/2025
استعادة الصور مع نماذج التوسع المعتمدة على النص
الملخص

يهدف استعادة الصور إلى استرجاع الصور المتدهورة. ومع ذلك، فإن طرق الاستعادة المستندة على الانتشار (diffusion) الحالية، رغم نجاحها الكبير في استعادة الصور الطبيعية، غالباً ما تواجه صعوبات في إعادة بناء المناطق النصية بدقة في الصور المتدهورة. تنتج هذه الطرق غالبًا أنماطًا شبيهة بالنصوص معقولة ولكن غير صحيحة، وهي الظاهرة التي نشير إليها بـ "هلوسة النص والصورة" (text-image hallucination). في هذا البحث، نقدم "استعادة الصور الواعية للنص" (Text-Aware Image Restoration - TAIR)، وهي مهمة استعادة جديدة تتطلب استرجاع المحتويات البصرية والدقة النصية بشكل متزامن. لمعالجة هذه المهمة، نقدم SA-Text، وهو معيار كبير الحجم يحتوي على 100 ألف صورة مشهد عالية الجودة تم توثيقها بكثافة بحالات نصية متنوعة ومعقدة. بالإضافة إلى ذلك، نقترح إطار عمل متعدد المهام يُدعى TeReDiff، والذي يدمج الخصائص الداخلية من نماذج الانتشار في وحدة كشف النص (text-spotting module)، مما يتيح لكلا المكونين الاستفادة من التدريب المشترك. هذا يسمح باستخراج تمثيلات نصية غنية يتم استخدامها كمثيرات (prompts) في خطوات التنقية اللاحقة. تظهر التجارب الواسعة أن منهجيتنا تتفوق باستمرار على أفضل الطرق الحالية في مجال الاستعادة، حيث حققت مكاسب كبيرة في دقة التعرف على النصوص. راجعوا صفحة مشروعنا: https://cvlab-kaist.github.io/TAIR/