HyperAIHyperAI

Command Palette

Search for a command to run...

السياق البصري يمكّن من الاستدلال النصي بشكل أفضل في التعرف على النص في المشهد

Yue He Chen Chen Jing Zhang Juhua Liu Fengxiang He Chaoyue Wang Bo Du

الملخص

تُستخدم الطرق الحالية لتمييز النص في المشاهد (STR) عادةً نموذجًا لغويًا لتحسين الاحتمال المشترك للتسلسل الأحادي الأبعاد للحروف الذي تنبئ به نموذج التعرف البصري (VR)، مما يتجاهل السياق المكاني ثنائي الأبعاد للدلالات البصرية داخل وحول مثيلات الحروف، ما يجعلها غير قادرة على التعميم الجيد على النصوص في المشاهد ذات الأشكال العشوائية. ولحل هذه المشكلة، نقدم في هذه الورقة أول محاولة لإجراء استنتاج نصي مبني على الدلالة البصرية. من الناحية الفنية، وباستخدام خ карتي التجزئة للحروف التي تنبئ بها نموذج VR، نُنشئ رسمًا فرعيًا لكل مثيل، حيث تمثل العقد في هذا الرسم النقاط (البكسل) داخل المثيل، ويتم إضافة حواف بين العقد بناءً على تشابهها المكاني. ثم يتم ربط هذه الرسوم الفرعية تسلسليًا من خلال عقدها الجذرية ودمجها في رسم كامل. وباستنادًا إلى هذا الرسم، نطوّر شبكة تلافيفية رسومية للاستنتاج النصي (GTR)، مع تدريبها باستخدام خسارة التباعد العنصري (cross-entropy loss). يمكن دمج GTR بسهولة في نماذج STR البارزة لتحسين أدائها بفضل قدرتها المحسّنة على الاستنتاج النصي. بشكل خاص، نبني نموذجنا، المسمى S-GTR، من خلال توازي GTR مع نموذج اللغة في نموذج أساسي لـ STR القائم على التجزئة، مما يسمح باستغلال التكامل البصري-اللغوي بكفاءة من خلال التعلم المتبادل. يُعد S-GTR الأفضل في الحالة الحالية على ستة معايير صعبة لـ STR، كما يُظهر أداءً متميزًا في التعميم على مجموعات بيانات متعددة اللغات. يمكن الوصول إلى الكود عبر الرابط: https://github.com/adeline-cs/GTR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp