HyperAIHyperAI

Command Palette

Search for a command to run...

نحو استرجاع الشخص الموحد القائم على النص: معيار بحث متعدد السمات واللغات على نطاق واسع

Shuyu Yang Yinan Zhou Yaxiong Wang Yujiao Wu Li Zhu Zhedong Zheng

الملخص

في هذا البحث، نقدم مجموعة بيانات كبيرة للبحث متعدد الصفات واللغة المستندة إلى النص لاسترجاع الأشخاص، تُعرف باسم MALS (Multi-Attribute and Language Search)، ونستكشف إمكانية تنفيذ التدريب المسبق على مهام التعرف على الصفات ومطابقة الصورة والنص في عملية واحدة. تحديدًا، تحتوي MALS على 1,510,330 زوجًا من الصور والنصوص، وهي أكبر بحوالي 37.5 مرة من مجموعة البيانات السائدة CUHK-PEDES، وكل الصور مصحوبة بـ 27 صفة. نظرًا لمخاوف الخصوصية وتكلفة التسمية، فقد استخدمنا نماذج الانتشار الجاهزة لتوليد مجموعة البيانات.لتحقق من إمكانية التعلم من البيانات المولدة، طوّرنا إطارًا جديدًا يجمع بين تعلم الإيحاء بالصفات وتعلم مطابقة النص (APTM - Attribute Prompt Learning and Text Matching Learning)، مع مراعاة المعرفة المشتركة بين الصفات والنص. كما يشير اسمه، يتكون APTM من تيار تعلم الإيحاء بالصفات وتيار تعلم مطابقة النص. (1) يستخدم تعلم الإيحاء بالصفات الإيحاءات الصفوية لتحقيق التناسق بين الصورة والصفة، مما يعزز تعلم مطابقة النص. (2) يساعد تعلم مطابقة النص في تعزيز التعلم التمثيلي للتفاصيل الدقيقة، وبالتالي يرفع مستوى أداء تعلم الإيحاء بالصفات.أثبتت التجارب الواسعة فعالية التدريب المسبق على MALS، حيث حققت APTM أفضل أداء استرجاعي حالي عبر ثلاثة مقاييس صعبة في العالم الحقيقي. بشكل خاص، حققت APTM تحسينًا ثابتًا بنسبة +6.96٪ و+7.68٪ و+16.95٪ في دقة الاسترجاع Recall@1 على مجموعات البيانات CUHK-PEDES وICFG-PEDES وRSTPReid على التوالي وبهامش واضح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp