HyperAIHyperAI

Command Palette

Search for a command to run...

ITA: محاذاة الصورة والنص للاعتراف بالكيانات الاسمية متعددة الأوضاع

Yong Jiang Kewei Tu Xinyu Wang Min Gui Nguyen Bach

الملخص

في الآونة الأخيرة، حظيت تقنية التعرف على الكيانات المسماة متعددة الوسائط (MNER) باهتمام كبير. تعتمد معظم الدراسات على معلومات الصور من خلال تمثيلات بصرية على مستوى المناطق التي يتم الحصول عليها من كاشف أشياء مُدرَّب مسبقًا، وتستند إلى آلية الانتباه لنمذجة التفاعلات بين تمثيلات الصورة والنص. ومع ذلك، فإن نمذجة هذه التفاعلات أمر صعب لأن تمثيلات الصورة والنص تُدرَّب بشكل منفصل على بيانات وسائطهما الخاصة ولا تتناسق في نفس الفضاء. نظرًا لأن تمثيلات النص تلعب الدور الأهم في MNER، فقد اقترحنا في هذا البحث تقنية تناسق الصورة مع النص (ITA) لتناسق خصائص الصورة مع الفضاء النصي، مما يتيح استخدام آلية الانتباه في نماذج التضمين النصي المُدرَّبة بالاعتماد على المتحولات بشكل أفضل.تقوم ITA أولاً بتناسق الصورة إلى علامات أشياء إقليمية، وتصنيفات مستويات الصورة، وأحرف ضوئية كسياقات بصرية، ثم تقوم بتجميعها مع النصوص الإدخالية لتكون إدخالًا جديدًا متعدد الوسائط. بعد ذلك، يتم تقديم هذا الإدخال إلى نموذج تضمين نصي مُدرَّب مسبقًا. هذا يجعل من السهل على وحدة الانتباه في نموذج التضمين النصي المُدرَّب مسبقًا نمذجة التفاعل بين الوسائط الثنائية لأنه يتم تمثيلهما في الفضاء النصي. بالإضافة إلى ذلك، تقوم ITA بتناسق التوزيعات الإخراجية المتوقعة من الإدخال المتعدد الوسائط والإدخال النصي لجعل نموذج MNER أكثر عملية عند التعامل مع المدخلات النصية فقط وأكثر مقاومة للضوضاء القادمة من الصور.في تجاربنا، أظهرنا أن نماذج ITA يمكن أن تحقق دقة قياسية في مجموعات البيانات المتعلقة بالتعرف على الكيانات المسماة متعددة الوسائط حتى بدون معلومات الصورة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ITA: محاذاة الصورة والنص للاعتراف بالكيانات الاسمية متعددة الأوضاع | مستندات | HyperAI