شبكة ذات توازن دلالي للشخص المدرك للأجزاء في إعادة التعرف على النص إلى الصورة

إعادة التعرف على الشخص من النص إلى الصورة (ReID) تهدف إلى البحث عن صور تحتوي على شخص معين باستخدام وصف نصي. ومع ذلك، بسبب الفجوة المودالية الكبيرة والاختلاف الكبير داخل الفئة في الوصف النصي، فإن إعادة التعرف على الشخص من النص إلى الصورة لا تزال مشكلة صعبة. وفقًا لذلك، في هذا البحث، نقترح شبكة محاذاة ذاتية معنوية (SSAN) للتعامل مع المشكلات المذكورة أعلاه. أولاً، نقترح طريقة جديدة تُستخرج فيها الخصائص الجزئية المعنى-محاذاة تلقائيًا من المودالتين. ثانيًا، نصمم شبكة غير محلية متعددة الآراء تلتقط العلاقات بين أجزاء الجسم، مما يساعد في إنشاء علاقات أفضل بين أجزاء الجسم والعبارات الاسمية. ثالثًا، نقدم خسارة تصنيف مركبة (CR) تستفيد من الوصف النصي لصور أخرى لنفس الهوية لتوفير إشراف إضافي، مما يقلل بشكل فعال من الاختلاف داخل الفئة في الخصائص النصية. وأخيرًا، لتسريع الأبحاث المستقبلية في إعادة التعرف على الشخص من النص إلى الصورة، قمنا ببناء قاعدة بيانات جديدة باسم ICFG-PEDES. تظهر التجارب الواسعة أن الشبكة SSAN تتفوق بشكل كبير على الأساليب الرائدة حاليًا. يمكن الوصول إلى قاعدة البيانات الجديدة ICFG-PEDES وكود الشبكة SSAN عبر الرابط:https://github.com/zifyloo/SSAN.