HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP4STR: قاعدة بسيطة للتعرف على النص في المشهد باستخدام نموذج الرؤية واللغة المُدرّب مسبقًا

Shuai Zhao Ruijie Quan Linchao Zhu Yi Yang

الملخص

النماذج البصرية-اللغوية المُدرَّبة مسبقًا (VLMs) هي النماذج الأساسية الافتراضية لعدة مهام تطبيقية لاحقة. ومع ذلك، لا يزال تنفيذ طرق تمييز النص في المشهد يفضّل استخدام الهياكل الأساسية المُدرَّبة على وسيلة واحدة فقط، وهي الوسيلة البصرية، على الرغم من الإمكانات الكبيرة التي تمتلكها نماذج VLMs كقُرّاء فعّالين للنص في المشاهد. على سبيل المثال، يمكن لـ CLIP التعرف بثقة على النصوص المنتظمة (الأفقية) والنصوص غير المنتظمة (المُتَوَرّدة، المنحنية، الضبابية، أو المُغطاة). وبفضل هذه المزايا، قمنا بتحويل CLIP إلى قارئ للنص في المشاهد، وقمنا بتطوير CLIP4STR، وهي طريقة فعّالة ومبسطة لتمييز النص في المشاهد (STR) مبنية على مُشفّرات الصور والنصوص في CLIP. تتكوّن CLIP4STR من فرعين للكوديغ (النُّسخة الترميزية-التفكيكية): فرع بصري وفرع متعدد الوسائط. يوفّر الفرع البصري توقعًا أوليًا بناءً على الميزات البصرية، بينما يُحسّن الفرع المتعدد الوسائط هذا التوقع من خلال معالجة الفجوة بين الميزات البصرية ودلالات النص. وللاستفادة الكاملة من إمكانيات كلا الفرعين، طوّرنا خطة تفكيك مزدوجة للتنبؤ والإصلاح أثناء الاستدلال. وتمّ توسيع CLIP4STR من حيث حجم النموذج، وبيانات التدريب المسبق، وبيانات التدريب، مما سمح لها بتحقيق أداءً متقدّمًا على 13 معيارًا لتمييز النص في المشاهد (STR). بالإضافة إلى ذلك، قدمت دراسة تجريبية شاملة لتعزيز الفهم حول تكييف CLIP لتمييز النص في المشاهد. تُشكّل طريقة عملنا قاعدة مبسطة ولكن قوية لبحوث مستقبلية في مجال STR باستخدام نماذج VLMs.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp