HyperAIHyperAI

Command Palette

Search for a command to run...

استخراج الكيانات المسماة والعلاقات باستخدام الاسترجاع متعدد الوسائط

Xinyu Wang⋄†, Jiong Cai⋄†, Yong Jiang∗, Pengjun Xie, Kewei Tu⋄; and Wei Lu♣

الملخص

التعرف على الكيانات المسماة متعددة الوسائط واستخراج العلاقات (Multi-modal Named Entity Recognition (NER) وRelation Extraction (RE)) يهدف إلى الاستفادة من المعلومات المرتبطة بالصور ذات الصلة لتحسين أداء التعرف على الكيانات المسماة واستخراج العلاقات. ركزت معظم الجهود الحالية بشكل كبير على استخراج المعلومات المحتملة المفيدة مباشرة من الصور (مثل خصائص المستوى البكسل، الأشياء المحددة، والعنواين المرتبطة). ومع ذلك، قد لا تكون هذه عمليات الاستخراج مدركة للمعرفة، مما يؤدي إلى معلومات قد لا تكون ذات صلة عالية. في هذا البحث، نقترح إطارًا جديدًا يستند إلى استرجاع متعدد الوسائط (MoRe). يتضمن MoRe وحدة استرجاع النص وأخرى تعتمد على الصورة، حيث تقوم كل منهما باسترجاع المعرفة ذات الصلة للنص والمدخلات البصرية في المكتبة المعرفية على التوالي. بعد ذلك، يتم إرسال نتائج الاسترجاع إلى النماذج النصية والبصرية على التوالي للتنبؤ. أخيرًا، يقوم وحدة مزيج الخبراء (Mixture of Experts (MoE)) بدمج التنبؤات من كلا النموذجين لاتخاذ القرار النهائي. تظهر تجاربنا أن كلاً من نموذجنا النصي والنموذج البصري يمكنه تحقيق أفضل الأداء في أربعة مجموعات بيانات لـ NER متعدد الوسائط وفي مجموعة بيانات واحدة لـ RE متعدد الوسائط. مع استخدام MoE، يمكن تحسين أداء النموذج بشكل أكبر، وقد أثبت تحليلنا فوائد دمج الدلائل النصية والبصرية لهذه المهام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp