HyperAIHyperAI

Command Palette

Search for a command to run...

iSEARLE: تحسين الانعكاس النصي لاسترجاع الصور المركبة بدون تعليم مسبق

Lorenzo Agnolucci Alberto Baldrati Alberto Del Bimbo Marco Bertini

الملخص

بالنظر إلى استعلام يتكون من صورة مرجعية وتعليق نسبي، فإن استرجاع الصور المركبة (CIR) يهدف إلى استرجاع صور الهدف التي تشبه بصريًا الصورة المرجعية مع دمج التغييرات المحددة في التعليق النسبي. تعوق الاعتماد على الطرق الإشرافية على مجموعات بيانات مصنفة يدويًا بشكل مكثف تطبيقها الواسع. في هذا العمل، نقدم مهمة جديدة تسمى الاسترجاع الصوري المركب بدون أمثلة (ZS-CIR)، والتي تعالج CIR دون الحاجة إلى مجموعة بيانات تدريبية مصنفة. نقترح نهجًا باسم iSEARLE (استرجاع الصور المركبة بدون أمثلة مع عكس النص) يشمل تحويل المعلومات البصرية للصورة المرجعية إلى رمز كلمة زائفة في فضاء تمثيل الكلمات في CLIP ودمجه بالتعليق النسبي. لتعزيز البحث حول ZS-CIR، نقدم مجموعة بيانات قياسية في مجال عام تُسمى CIRCO (استرجاع الصور المركبة لأغراض شائعة في السياق)، وهي أول مجموعة بيانات CIR حيث يتم تصنيف كل استعلام بحقائق أساسية متعددة وتوضيح تصنيفه الدلالي. توضح النتائج التجريبية أن iSEARLE حققت أداءً رائدًا على ثلاث مجموعات بيانات مختلفة لـ CIR -- FashionIQ، CIRR، والمجموعة المقترحة CIRCO -- بالإضافة إلى ضبطين تقييميين إضافيين وهما تحويل المجال وتركيب الأغراض. يمكن الوصول إلى المجموعة والرمز والموديل بشكل عام عبر الرابط: https://github.com/miccunifi/SEARLE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
iSEARLE: تحسين الانعكاس النصي لاسترجاع الصور المركبة بدون تعليم مسبق | مستندات | HyperAI