HyperAIHyperAI
منذ 2 أشهر

انظر بشكل أدق، اكتشف المزيد: التوافق الضمني للطبيعة للبحث عن الشخص بناءً على النص

Shu, Xiujun ; Wen, Wei ; Wu, Haoqian ; Chen, Keyu ; Song, Yiran ; Qiao, Ruizhi ; Ren, Bo ; Wang, Xiao
انظر بشكل أدق، اكتشف المزيد: التوافق الضمني للطبيعة للبحث عن الشخص بناءً على النص
الملخص

استرجاع الشخص القائم على النص يهدف إلى العثور على الشخص المطلوب بناءً على وصف نصي. المفتاح هو تعلم مساحة خفية مشتركة بين الوسائط البصرية والنصية. لتحقيق هذا الهدف، تعتمد الأعمال الحالية تقسيم الأجزاء للحصول على توافق عرضي صريح أو استخدام الانتباه لاستكشاف التوافق البارز. هذه الأساليب لها عيبان رئيسيان: 1) وضع العلامات على التوافقات العرضية يستغرق وقتًا طويلاً. 2) يمكن للأساليب القائمة على الانتباه استكشاف التوافقات العرضية البارزة ولكنها قد تتجاهل بعض الأزواج الدقيقة والقيمة.للتخفيف من هذه المشكلات، نقدم إطارًا عملًا ضمنيًا بصري-نصي (IVT) لاسترجاع الشخص القائم على النص. يختلف الإطار IVT عن النماذج السابقة في أنه يستخدم شبكة واحدة لتعلم تمثيل كلا الوسائط، مما يساهم في التفاعل البصري-النصي. لاكتشاف التوافق الدقيق، نقترح أيضًا نموذجين ضمنيين للتوافق الدلالي: التوافق متعدد المستويات (MLA) ونمذجة القناع ثنائية الاتجاه (BMM). يعمل وحدة MLA على تحقيق مطابقة أكثر دقة على مستوى الجمل والعبارات والكلمات، بينما تهدف وحدة BMM إلى استخراج المزيد من التوافقات الدلالية بين الوسائط البصرية والنصية.أجريت تجارب واسعة لتقييم الإطار المقترح IVT على مجموعات بيانات عامة مثل CUHK-PEDES و RSTPReID و ICFG-PEDES. حتى بدون مطابقة صريحة للأجزاء الجسمانية، لا يزال أسلوبنا يحقق أداءً رائدًا في مجاله. يمكن الوصول إلى الكود عبر الرابط:https://github.com/TencentYoutuResearch/PersonRetrieval-IVT.

انظر بشكل أدق، اكتشف المزيد: التوافق الضمني للطبيعة للبحث عن الشخص بناءً على النص | أحدث الأوراق البحثية | HyperAI