HyperAIHyperAI

Command Palette

Search for a command to run...

استعادة الصور مع نماذج التوسع المعتمدة على النص

Jaewon Min Jin Hyeon Kim Paul Hyunbin Cho Jaeeun Lee Jihye Park Minkyu Park Sangpil Kim Hyunhee Park Seungryong Kim

الملخص

يهدف استعادة الصور إلى استرجاع الصور المتدهورة. ومع ذلك، فإن طرق الاستعادة المستندة على الانتشار (diffusion) الحالية، رغم نجاحها الكبير في استعادة الصور الطبيعية، غالباً ما تواجه صعوبات في إعادة بناء المناطق النصية بدقة في الصور المتدهورة. تنتج هذه الطرق غالبًا أنماطًا شبيهة بالنصوص معقولة ولكن غير صحيحة، وهي الظاهرة التي نشير إليها بـ "هلوسة النص والصورة" (text-image hallucination). في هذا البحث، نقدم "استعادة الصور الواعية للنص" (Text-Aware Image Restoration - TAIR)، وهي مهمة استعادة جديدة تتطلب استرجاع المحتويات البصرية والدقة النصية بشكل متزامن. لمعالجة هذه المهمة، نقدم SA-Text، وهو معيار كبير الحجم يحتوي على 100 ألف صورة مشهد عالية الجودة تم توثيقها بكثافة بحالات نصية متنوعة ومعقدة. بالإضافة إلى ذلك، نقترح إطار عمل متعدد المهام يُدعى TeReDiff، والذي يدمج الخصائص الداخلية من نماذج الانتشار في وحدة كشف النص (text-spotting module)، مما يتيح لكلا المكونين الاستفادة من التدريب المشترك. هذا يسمح باستخراج تمثيلات نصية غنية يتم استخدامها كمثيرات (prompts) في خطوات التنقية اللاحقة. تظهر التجارب الواسعة أن منهجيتنا تتفوق باستمرار على أفضل الطرق الحالية في مجال الاستعادة، حيث حققت مكاسب كبيرة في دقة التعرف على النصوص. راجعوا صفحة مشروعنا: https://cvlab-kaist.github.io/TAIR/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp