HyperAIHyperAI

Command Palette

Search for a command to run...

3SHNet: تعزيز استرجاع الصورة-الجملة من خلال التمييز الذاتي البصري والمعنوي-المساحي

Xuri Ge Songpei Xu Fuhai Chen Jie Wang Guoxin Wang Shan An Joemon M. Jose

الملخص

في هذه الورقة، نقترح شبكة بصرية ذاتية-تسلط بصرية-معنوية-مكانية مبتكرة (تُعرف بـ 3SHNet) لاسترجاع الصور والجملة بدقة عالية وكفاءة عالية وعامة عالية. تسلط 3SHNet الضوء على التمييز البارز للأجسام البارزة ومواقعها المكانية داخل الوسيلة البصرية، مما يسمح بدمج التفاعلات البصرية المعنوية-المكانية مع الحفاظ على الاستقلال بين الوسيلتين. ويُعد هذا الدمج فعّالاً في دمج مناطق الكائنات مع التخطيطات المعنوية والموضعية المُستخلصة من التجزئة، لتعزيز التمثيل البصري. كما تضمن الاستقلال بين الوسائل الكفاءة والقدرة على التعميم. علاوةً على ذلك، تستخدم 3SHNet المعلومات السياقية البصرية المُنظمة من التجزئة لتوجيه الاسترجاع المحلي (المبني على المناطق) أو العالمي (المبني على الشبكة)، مما يحقق استرجاعًا دقيقًا على مستويات مختلطة. وقد أثبتت التجارب الواسعة المُنفَّذة على معايير MS-COCO وFlickr30K الأداء المتميز، وكفاءة الاستدلال، والقدرة على التعميم للـ 3SHNet مقارنة بالأساليب الحديثة المتطورة. وبشكل خاص، على مجموعة اختبار MS-COCO 5K الأكبر، حققنا تحسينات بنسبة 16.3% و24.8% و18.3% على التوالي في مقياس rSum، مقارنة بالأساليب الرائدة التي تستخدم تمثيلات صور مختلفة، مع الحفاظ على كفاءة استرجاع مثالية. علاوةً على ذلك، تحسن أداؤنا في التعميم عبر المجموعات البيانات بنسبة 18.6%. ويمكن الوصول إلى البيانات والكود من خلال الرابط: https://github.com/XuriGe1995/3SHNet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
3SHNet: تعزيز استرجاع الصورة-الجملة من خلال التمييز الذاتي البصري والمعنوي-المساحي | مستندات | HyperAI