HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة استنتاج العلاقة الثنائية لفصل الصور الإشارية

Huchuan Lu Lihe Zhang Jiayu Sun Guang Feng Zhiwei Hu

الملخص

تُعدّ معظم الطرق الحالية غير قادرة على صياغة التوجيه المتبادل بين الرؤية واللغة بشكل صريح. وفي هذا العمل، نقترح شبكة استنتاج علاقة ثنائية الاتجاه (BRINet) لتمثيل الاعتماديات بين المعلومات عبر الوسائط المختلفة. وعلى وجه التحديد، تُستخدم الانتباه اللغوي الموجه بالرؤية لتعلم السياق اللغوي التكيفي المقابل لكل منطقة بصرية. وبالاقتران مع الانتباه البصري الموجه باللغة، يتم بناء وحدة انتباه متقاطعة ثنائية الاتجاه (BCAM) لاستكشاف العلاقة بين الميزات متعددة الوسائط. وبهذا، يمكن تمثيل السياق الدلالي النهائي للجسم المستهدف والتعبير المرجعي بدقة واتساق. علاوةً على ذلك، تم تصميم وحدة اندماج ثنائية الاتجاه ذات مفتاح (GBFM) لدمج الميزات متعددة المستويات، حيث تُستخدم دالة مفتاح لتوجيه تدفق المعلومات متعددة المستويات بشكل ثنائي الاتجاه. وأظهرت التجارب الواسعة على أربع مجموعات بيانات معيارية أن الطريقة المقترحة تتفوق على الطرق الأخرى من فئة الأفضل حالياً تحت معايير تقييم مختلفة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp