HyperAIHyperAI

Command Palette

Search for a command to run...

إطار عمل مُحسّن لتمثيل وارتباط الترميز-إعادة الترميز لتمييز النص في المشهد

Mengmeng Cui Wei Wang Jinjin Zhang Liang Wang

الملخص

يُستخدم إطار العمل القائم على الانتباه في مُشَرِّع الترميز والفك (encoder-decoder) على نطاق واسع في مهام تمييز النص في المشاهد. ومع ذلك، تظل هناك مجالات للتحسين في الطرق الرائدة حاليًا (SOTA) فيما يتعلق باستخدام فعّال للمعلومات البصرية المحلية والاتصالات السياقية الشاملة للصورة النصية المدخلة، وكذلك في القوة الترابطية بين وحدة معالجة المشهد (المُشَرِّع) ووحدة معالجة النص (المُفكّك). في هذه الورقة، نقترح إطارًا مُحسَّنًا لتمثيل التمثيل والارتباط (RCEED) لمعالجة هذه النواقص وتجاوز الحدود الأداءية. في وحدة التشفير (encoder)، يتم توحيد ودمج الخصائص البصرية المحلية، وخصائص السياق الشامل، ومعلومات الموقع لتكوين خريطة متكاملة صغيرة الحجم. وفي وحدة التفكيك (decoder)، تُستخدم طريقتان لتعزيز الترابط بين فضاءات ميزات المشهد والنصوص: (1) يتم توجيه بدء التشغيل في المُفكّك من خلال الخصائص الشاملة والمحور البصري العام (global glimpse vector) الناتج عن وحدة التشفير؛ (2) يُستخدم المحور البصري المُثرّى بالميزات، الذي يُنتَج بواسطة الانتباه متعدد الرؤوس العام (Multi-Head General Attention)، لمساعدة التكرار في وحدة RNN وتقدير الحروف في كل خطوة زمنية. بالإضافة إلى ذلك، صممنا خلية LSTM تُستخدم فيها معيار التطبيع الطبقي (LayerNorm-Dropout) لتحسين قدرة النموذج على التعميم تجاه النصوص المتنوعة والمتغيرة. أظهرت التجارب الواسعة على مجموعات البيانات المرجعية الأداء المتميز لـ RCEED في مهام تمييز النص في المشاهد، وخاصةً في الحالات غير المنتظمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp