محاذاة سياقية غير محلية على تمثيل شامل للبحث عن الأشخاص بناءً على النص

البحث عن الشخص بناءً على النص يهدف إلى استرجاع الشخص المستهدف في معرض صور باستخدام جملة وصفية لذلك الشخص. يعد هذا التحدي صعبًا للغاية نظرًا للفجوة بين الأشكال (modal gap)، مما يجعل استخراج الخصائص المميزة بشكل فعال أكثر صعوبة. بالإضافة إلى ذلك، فإن التباين بين الفئات لكل من صور المشاة والوصف قليل. لذلك، يتم الحاجة إلى معلومات شاملة لتوفيق الدلائل البصرية والنصية عبر جميع الأبعاد. ومعظم الطرق الحالية تأخذ بعين الاعتبار فقط التوافق المحلي بين الصور والنصوص ضمن نطاق واحد (مثل النطاق العالمي فقط أو النطاق الجزئي فقط)، ثم تقوم ببناء التوافق في كل نطاق بشكل منفصل.لحل هذه المشكلة، نقترح طريقة قادرة على توفيق الخصائص البصرية والنصية بشكل تكيفي عبر جميع الأبعاد، وتُعرف باسم NAFS (أي توفيق غير محلي عبر تمثيلات كاملة الأبعاد Non-local Alignment over Full-Scale representations). أولاً، تم اقتراح هيكل شبكة سلمي جديد لاستخراج خصائص الصور الكاملة الأبعاد مع أفضل تحديد للمنطقة المحلية. ثانيًا، تم اقتراح استخدام BERT مع انتباه مقيد بالمنطقة المحلية للحصول على تمثيلات للوصف عند أبعاد مختلفة. بعد ذلك، بدلاً من توفيق الخصائص في كل نطاق بشكل منفصل، يتم تطبيق آلية انتباه سياقية غير محلية جديدة لاكتشاف التوافق الكامن عبر جميع الأبعاد بشكل متزامن.تظهر النتائج التجريبية أن طرحتنا تتفوق على أفضل الطرق الحالية بنسبة 5.53% فيما يتعلق بالمرتبة الأولى وبنسبة 5.35% فيما يتعلق بالمرتبة الخامسة على مجموعة بيانات البحث عن الشخص بناءً على النص. يمكن الحصول على الرمز البرمجي من الرابط التالي: https://github.com/TencentYoutuResearch/PersonReID-NAFS