شبكة انتباه جومبل الهرمية للبحث عن الأشخاص بناءً على النص
تهدف عملية البحث عن الأشخاص القائمة على النصوص إلى استرجاع صور الأشخاص التي تتطابق بشكل أفضل مع وصف نصي معطى من بين صور المعرض. استخدمت الطرق السابقة آلية الانتباه الناعم لاستنتاج التوافيق المعنى بين مناطق الصورة والكلمات المقابلة لها في الجملة. ومع ذلك، قد تؤدي هذه الطرق إلى دمج ميزات متعددة الوسائط غير ذات صلة معًا، مما يسبب مشكلة التكرار في التوافق. في هذا العمل، نقترح شبكة انتباه جوبل هيراركية جديدة للبحث عن الأشخاص القائم على النصوص من خلال خوارزمية إعادة بارامترية جوبل للـ top-k. وبشكل خاص، تقوم الشبكة باختيار تلقائي للمناطق الصورية ذات الصلة الدلالية القوية والكلمات أو العبارات المقابلة من النصوص، بهدف تحقيق توافق دقيق وحساب مماثلة دقيق. تتيح هذه الاستراتيجية القائمة على الاختيار القوي دمج ميزات متعددة الوسائط ذات صلة قوية، مما يخفف من مشكلة التكرار في التوافق. وفي الوقت نفسه، تم تصميم خوارزمية إعادة بارامترية جوبل للـ top-k كمُقدّر للمنحدر منخفض التباين وغير متحيّز لمعالجة مشكلة التفرع في آلية الانتباه القوي بطريقة نهائية (end-to-end). علاوة على ذلك، تُطبّق الشبكة استراتيجية توافق هيراركية تكيفية من ثلاث مستويات مختلفة من الدقة، أي على مستوى الكلمة، وعلى مستوى العبارة، وعلى مستوى الجملة، بهدف تحقيق توافق دقيق للغاية. تُظهر النتائج التجريبية الواسعة الأداء المتميز مقارنة بالطرق السابقة. ومقارنة بالطريقة الأفضل الموجودة، نحقق تحسينات نسبية قدرها 8.24% في دقة الترتيب (Rank-1) و7.6% في متوسط الدقة (mAP) في مهمة استرجاع الصور من النصوص، وتُسجّل تحسينات نسبية قدرها 5.58% في دقة الترتيب (Rank-1) و6.3% في متوسط الدقة (mAP) في مهمة استرجاع النصوص من الصور على مجموعة بيانات CUHK-PEDES.