HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات التعرف على النص متعدد الوسائط: تحسينات تفاعلية بين الميزات البصرية والمعنوية

Byeonghu Na Yoonsik Kim Sungrae Park

الملخص

أثبت المعرفة اللغوية فوائد كبيرة في التعرف على النصوص في المشهد من خلال توفير الدلالة لتحسين تسلسل الأحرف. ومع ذلك، نظرًا لأن المعرفة اللغوية تم تطبيقها بشكل منفصل على التسلسل الناتج، لم تُستغل الطرق السابقة بالكامل الدلالة لفهم المؤشرات البصرية في التعرف على النصوص. يُقدّم هذا البحث طريقة جديدة تُسمى شبكة التعرف على النصوص متعددة الوسائط (MATRN)، التي تُمكّن التفاعل بين الميزات البصرية والمعانيية لتحقيق أداء أفضل في التعرف. بشكل خاص، تُحدد MATRN أزواج الميزات البصرية والمعانيية، وتنقّل المعلومات المكانية إلى الميزات المعانيية. وباستخدام الترميز المكاني، يتم تعزيز الميزات البصرية والمعانيية من خلال الإشارة إلى الميزات ذات الصلة في الوسيط الآخر. علاوةً على ذلك، تحفّز MATRN دمج الميزات المعانيية في الميزات البصرية من خلال إخفاء المؤشرات البصرية المرتبطة بالحرف خلال مرحلة التدريب. تُظهر التجارب أن MATRN تحقق أداءً متقدماً على مستوى العالم في سبعة معايير، وبفارق كبير، في حين تُظهر الطرق البسيطة التي تدمج الوسائط معاً تحسينات أقل فعالية. وتدعم الدراسات التحليلية الإضافية فعالية المكونات المقترحة. يمكن الوصول إلى التنفيذ الخاص بنا عبر الرابط: https://github.com/wp03052/MATRN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكات التعرف على النص متعدد الوسائط: تحسينات تفاعلية بين الميزات البصرية والمعنوية | مستندات | HyperAI