HyperAIHyperAI
منذ 17 أيام

استرجاع الصور المُركّبة باستخدام التعلّم التبايني وسمات CLIP المُوجّهة للمهام

Alberto Baldrati, Marco Bertini, Tiberio Uricchio, Alberto del Bimbo
استرجاع الصور المُركّبة باستخدام التعلّم التبايني وسمات CLIP المُوجّهة للمهام
الملخص

بالنظر إلى استعلام يتكون من صورة مرجعية ووصف نسبي، فإن الهدف من استرجاع الصور المركبة هو استرجاع صور ذات مظهر بصري مشابه للصورة المرجعية، مع دمج التعديلات المعبّر عنها في الوصف. وبما أن الأبحاث الحديثة أظهرت فعالية النماذج الكبيرة المُدرّبة مسبقًا على الرؤية واللغة (VLP) في مهام متعددة، فإننا نعتمد على الميزات المستمدة من نموذج OpenAI CLIP لمعالجة المهمة المذكورة. نقوم أولًا بتعديل مخصص للمهمة لكلا مُشفّري CLIP باستخدام الجمع العنصري للميزات البصرية والنصية. ثم، في المرحلة الثانية، ندرّب شبكة مُجمّعة (Combiner) تتعلم دمج ميزات الصورة والنص، مع دمج المعلومات ثنائية النمط، وتقديم ميزات مُجمّعة تُستخدم في عملية الاسترجاع. نستخدم التعلّم التبايني (contrastive learning) في كلا مرحلتي التدريب. ومبنيًا على الميزات الأساسية من CLIP كأساس، تُظهر النتائج التجريبية أن التعديل المخصص للمهمة والشبكة المُجمّعة المُصممة بدقة فعّالة جدًا، وتتفوّق على النماذج الحديثة المعقدة في أداء المهام على مجموعتي بيانات FashionIQ وCIRR، وهما مجموعتا بيانات شهيرتان وصعبة لاسترجاع الصور المركبة. يمكن الوصول إلى الكود والنماذج المُدرّبَة مسبقًا من خلال الرابط التالي: https://github.com/ABaldrati/CLIP4Cir

استرجاع الصور المُركّبة باستخدام التعلّم التبايني وسمات CLIP المُوجّهة للمهام | أحدث الأوراق البحثية | HyperAI