HyperAIHyperAI
منذ 2 أشهر

TIPCB: خط أساس بسيط ولكن فعال يستند إلى الأجزاء للبحث عن الشخص بناءً على النص

Yuhao Chen; Guoqing Zhang; Yujiang Lu; Zhenxing Wang; Yuhui Zheng; Ruili Wang
TIPCB: خط أساس بسيط ولكن فعال يستند إلى الأجزاء للبحث عن الشخص بناءً على النص
الملخص

البحث عن الشخص القائم على النص هو جزء فرعي في مجال استرجاع الصور، ويهدف إلى استرجاع صور الأشخاص المستهدفة وفقًا لوصف نصي معطى. الفجوة المميزة الكبيرة بين الوسيلتين تجعل هذه المهمة صعبة للغاية. العديد من الطرق الحالية تحاول استخدام التوافق المحلي لمعالجة هذه المشكلة على المستوى الدقيق. ومع ذلك، فإن معظم الطرق ذات الصلة تقدم نماذج إضافية أو استراتيجيات تدريب وتقييم معقدة، والتي تكون صعبة الاستخدام في السيناريوهات الواقعية. من أجل تسهيل التطبيق العملي، نقترح إطارًا تعليميًا بسيطًا ولكن فعالًا للبحث عن الشخص القائم على النص يُسمى TIPCB (أي Text-Image Part-based Convolutional Baseline). أولاً، تم اقتراح هيكل شبكة توافق محلي جديد ذو مسارين لاستخراج التمثيلات المحلية البصرية والنصية، حيث يتم تقسيم الصور أفقيًا وتوافق النص بشكل متكيف. ثانيًا، نقترح استراتيجية مطابقة متعددة المراحل عبر الوسائط، والتي تقلل من الفجوة بين الوسائط من ثلاثة مستويات للخصائص، وهي المستوى المنخفض والمستوى المحلي والمستوى العالمي. تم إجراء تجارب واسعة النطاق على مجموعة بيانات المعيار الشائعة الاستخدام (CUHK-PEDES) وأثبتت أن طريقتنا تتفوق على أفضل الطرق الحالية بنسبة 3.69٪ و2.95٪ و2.31٪ فيما يتعلق بـ Top-1 وTop-5 وTop-10 على التوالي. لقد تم إطلاق شفرتنا المصدر في https://github.com/OrangeYHChen/TIPCB.

TIPCB: خط أساس بسيط ولكن فعال يستند إلى الأجزاء للبحث عن الشخص بناءً على النص | أحدث الأوراق البحثية | HyperAI