شبكة استنتاج العلاقة الثنائية لفصل الصور الإشارية

تُعدّ معظم الطرق الحالية غير قادرة على صياغة التوجيه المتبادل بين الرؤية واللغة بشكل صريح. وفي هذا العمل، نقترح شبكة استنتاج علاقة ثنائية الاتجاه (BRINet) لتمثيل الاعتماديات بين المعلومات عبر الوسائط المختلفة. وعلى وجه التحديد، تُستخدم الانتباه اللغوي الموجه بالرؤية لتعلم السياق اللغوي التكيفي المقابل لكل منطقة بصرية. وبالاقتران مع الانتباه البصري الموجه باللغة، يتم بناء وحدة انتباه متقاطعة ثنائية الاتجاه (BCAM) لاستكشاف العلاقة بين الميزات متعددة الوسائط. وبهذا، يمكن تمثيل السياق الدلالي النهائي للجسم المستهدف والتعبير المرجعي بدقة واتساق. علاوةً على ذلك، تم تصميم وحدة اندماج ثنائية الاتجاه ذات مفتاح (GBFM) لدمج الميزات متعددة المستويات، حيث تُستخدم دالة مفتاح لتوجيه تدفق المعلومات متعددة المستويات بشكل ثنائي الاتجاه. وأظهرت التجارب الواسعة على أربع مجموعات بيانات معيارية أن الطريقة المقترحة تتفوق على الطرق الأخرى من فئة الأفضل حالياً تحت معايير تقييم مختلفة.