HyperAIHyperAI
منذ 11 أيام

CLIP4STR: قاعدة بسيطة للتعرف على النص في المشهد باستخدام نموذج الرؤية واللغة المُدرّب مسبقًا

Shuai Zhao, Ruijie Quan, Linchao Zhu, Yi Yang
CLIP4STR: قاعدة بسيطة للتعرف على النص في المشهد باستخدام نموذج الرؤية واللغة المُدرّب مسبقًا
الملخص

النماذج البصرية-اللغوية المُدرَّبة مسبقًا (VLMs) هي النماذج الأساسية الافتراضية لعدة مهام تطبيقية لاحقة. ومع ذلك، لا يزال تنفيذ طرق تمييز النص في المشهد يفضّل استخدام الهياكل الأساسية المُدرَّبة على وسيلة واحدة فقط، وهي الوسيلة البصرية، على الرغم من الإمكانات الكبيرة التي تمتلكها نماذج VLMs كقُرّاء فعّالين للنص في المشاهد. على سبيل المثال، يمكن لـ CLIP التعرف بثقة على النصوص المنتظمة (الأفقية) والنصوص غير المنتظمة (المُتَوَرّدة، المنحنية، الضبابية، أو المُغطاة). وبفضل هذه المزايا، قمنا بتحويل CLIP إلى قارئ للنص في المشاهد، وقمنا بتطوير CLIP4STR، وهي طريقة فعّالة ومبسطة لتمييز النص في المشاهد (STR) مبنية على مُشفّرات الصور والنصوص في CLIP. تتكوّن CLIP4STR من فرعين للكوديغ (النُّسخة الترميزية-التفكيكية): فرع بصري وفرع متعدد الوسائط. يوفّر الفرع البصري توقعًا أوليًا بناءً على الميزات البصرية، بينما يُحسّن الفرع المتعدد الوسائط هذا التوقع من خلال معالجة الفجوة بين الميزات البصرية ودلالات النص. وللاستفادة الكاملة من إمكانيات كلا الفرعين، طوّرنا خطة تفكيك مزدوجة للتنبؤ والإصلاح أثناء الاستدلال. وتمّ توسيع CLIP4STR من حيث حجم النموذج، وبيانات التدريب المسبق، وبيانات التدريب، مما سمح لها بتحقيق أداءً متقدّمًا على 13 معيارًا لتمييز النص في المشاهد (STR). بالإضافة إلى ذلك، قدمت دراسة تجريبية شاملة لتعزيز الفهم حول تكييف CLIP لتمييز النص في المشاهد. تُشكّل طريقة عملنا قاعدة مبسطة ولكن قوية لبحوث مستقبلية في مجال STR باستخدام نماذج VLMs.

CLIP4STR: قاعدة بسيطة للتعرف على النص في المشهد باستخدام نموذج الرؤية واللغة المُدرّب مسبقًا | أحدث الأوراق البحثية | HyperAI