HyperAIHyperAI
منذ 2 أشهر

تعلم تمثيل الميزات المتناسقة مع الدلالة للبحث عن الأشخاص بالاعتماد على النص

Li, Shiping ; Cao, Min ; Zhang, Min
تعلم تمثيل الميزات المتناسقة مع الدلالة للبحث عن الأشخاص بالاعتماد على النص
الملخص

البحث عن الأشخاص بناءً على النص يهدف إلى استرجاع صور لمشاة معينين من خلال وصف نصي. التحدي الرئيسي لهذا المهمة هو القضاء على الفجوة بين الوسائط (النمذجة) وتحقيق مواءمة الخصائص عبر الوسائط المختلفة. في هذا البحث، نقترح طريقة تمثيل متماهية مع الدلالة للبحث عن الأشخاص بناءً على النص، حيث يتم تحقيق مواءمة الخصائص عبر الوسائط من خلال تعلم تلقائي للخصائص البصرية والنصية المتماهية مع الدلالة. أولاً، نقدم عمودين أساسيين يستندان إلى تقنية Transformer لترميز تمثيلات خصائص قوية للصور والنصوص. ثانياً، نصمم شبكة تجميع خصائص متماهية مع الدالة لتختار وتجمع بشكل تكيفي الخصائص ذات الدلالات نفسها في خصائص جزئية واعية، والتي يتم تحقيقها من خلال وحدة انتباه متعددة الرؤوس مقيدة بخسارة تناسق جزئي عابر للوسائط وخسارة التنوع. نتائج التجارب على مجموعتي البيانات CUHK-PEDES وFlickr30K تظهر أن طرقتنا تحقق أداءً رائدًا في المجال (state-of-the-art).