HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم التوافق الضوضائي لإعادة تعريف الشخص من النص إلى الصورة

Yang Qin Yingke Chen Dezhong Peng Xi Peng Joey Tianyi Zhou Peng Hu

الملخص

التعرف على الشخص من النص إلى الصورة (TIReID) هو موضوع مثير للاهتمام في مجتمع الوسائط المتعددة، يهدف إلى استرجاع الشخص المستهدف بناءً على استعلام نصي. رغم اقتراح العديد من طرق TIReID وتحقيقها لأداء واعد، فإن هذه الطرق تفترض ضمنياً أن أزواج الصور والنصوص التدريبية محاذاة بشكل صحيح، وهو ما لا يحدث دائماً في السيناريوهات الحقيقية. في الممارسة العملية، توجد أزواج صورة-نص تحتوي على علاقات غير كافية أو حتى خاطئة، المعروفة أيضاً بالمراسلات الضوضائية (Noisy Correspondence - NC)، بسبب جودة الصور المنخفضة وأخطاء التسمية. لحل هذه المشكلة، نقترح طريقة جديدة للغرس الثنائي القوي (Robust Dual Embedding - RDE) التي يمكنها تعلم العلاقات البصرية-الدلالية بقوة حتى مع وجود NC. تحديداً، تتكون RDE من مكونين رئيسيين:1) وحدة التقسيم بالتراضي الثقة (Confident Consensus Division - CCD) التي تستفيد من القرارات الثنائية الدقيقة للوحدات الثنائية الغرس للحصول على مجموعة توافقية من بيانات التدريب النظيفة، مما يمكّن النموذج من تعلم العلاقات البصرية-الدلالية الصحيحة والموثوقة.2) خسارة التناسق الثلاثي (Triplet Alignment Loss - TAL) التي تخفف من الخسارة التقليدية للترتيب الثلاثي مع العينات السلبية الأصعب إلى حد أعلى لوغاريتمي-أساسي لكل العينات السلبية، مما يمنع انهيار النموذج تحت NC ويمكنه أيضاً التركيز على العينات السلبية الأصعب لتحقيق أداء واعد.أجرينا تجارب واسعة على ثلاثة مقاييس عامة هي CUHK-PEDES و ICFG-PEDES و RSTPReID لتقييم أداء وقوة طريقة RDE. حققت طريقتنا أفضل النتائج الحالية سواء بوجود أو عدم وجود مراسلات ضوضائية مصنعة على جميع الثلاثة قواعد بيانات. الرمز البرمجي متاح على الرابط https://github.com/QinYang79/RDE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تعلم التوافق الضوضائي لإعادة تعريف الشخص من النص إلى الصورة | مستندات | HyperAI