السياق البصري يمكّن من الاستدلال النصي بشكل أفضل في التعرف على النص في المشهد

تُستخدم الطرق الحالية لتمييز النص في المشاهد (STR) عادةً نموذجًا لغويًا لتحسين الاحتمال المشترك للتسلسل الأحادي الأبعاد للحروف الذي تنبئ به نموذج التعرف البصري (VR)، مما يتجاهل السياق المكاني ثنائي الأبعاد للدلالات البصرية داخل وحول مثيلات الحروف، ما يجعلها غير قادرة على التعميم الجيد على النصوص في المشاهد ذات الأشكال العشوائية. ولحل هذه المشكلة، نقدم في هذه الورقة أول محاولة لإجراء استنتاج نصي مبني على الدلالة البصرية. من الناحية الفنية، وباستخدام خ карتي التجزئة للحروف التي تنبئ بها نموذج VR، نُنشئ رسمًا فرعيًا لكل مثيل، حيث تمثل العقد في هذا الرسم النقاط (البكسل) داخل المثيل، ويتم إضافة حواف بين العقد بناءً على تشابهها المكاني. ثم يتم ربط هذه الرسوم الفرعية تسلسليًا من خلال عقدها الجذرية ودمجها في رسم كامل. وباستنادًا إلى هذا الرسم، نطوّر شبكة تلافيفية رسومية للاستنتاج النصي (GTR)، مع تدريبها باستخدام خسارة التباعد العنصري (cross-entropy loss). يمكن دمج GTR بسهولة في نماذج STR البارزة لتحسين أدائها بفضل قدرتها المحسّنة على الاستنتاج النصي. بشكل خاص، نبني نموذجنا، المسمى S-GTR، من خلال توازي GTR مع نموذج اللغة في نموذج أساسي لـ STR القائم على التجزئة، مما يسمح باستغلال التكامل البصري-اللغوي بكفاءة من خلال التعلم المتبادل. يُعد S-GTR الأفضل في الحالة الحالية على ستة معايير صعبة لـ STR، كما يُظهر أداءً متميزًا في التعميم على مجموعات بيانات متعددة اللغات. يمكن الوصول إلى الكود عبر الرابط: https://github.com/adeline-cs/GTR.